Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Зено Бассель

  • Зено Бассель
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 358
Зено Бассель. Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2022. 358 с.

Оглавление диссертации кандидат наук Зено Бассель

Реферат

Synopsis

Introduction

Chapter 1 Analytical overview of methods for face image synthesis, setting goals and objectives of the study

1.1 Historical overview for face image synthesis

1.1.1 Statistical models and subspace representation

1.1.2 Geometry modeling

1.1.3 Basic augmentation methods

1.1.4 Learning methods

1. 2 Theorical background

1.2.1 Discriminative and generative models

1.2.2 Deep neural networks

1.3 Performance metrics

1.3.1 Face recognition performance metrics

1.3.2 Image quality assessment metrics

1.4 State of the art

1.4.1 Explicit 2D/3D modeling for face image synthesis

1.4.2 End to end methods for face image synthesis using generative adversarial network

1.4.2.1 GANs for image-to-image translation

1.4.2.2 Cross-domain image-to-image translation

1.4.2.3 Multi-domain image-to-image translation

1.4.2.4 Face image frontalization using generative adversarial network

1.4.2.5 Face image rotation using generative adversarial network

1.4.2.6 Face image animating using generative adversarial network

1.4.2.7 face image inpainting using generative adversarial network

1.5 Summary

Chapter 2 Development of methods and algorithms for face image generation with the given attributes and preserving the identity

2.1 Comparative analysis between Cross-Domain and Multi-Domain image-to-image translation

2.1.1 Motivation

2.1.2 The proposed evaluation metric to compare image-to-image translation models

2.1.3 The proposed loss functions for improving preservation the identity

2.1.4 Experiments

2.2 Developing generative method for learning identity and pose disentanglement (IP-GAN)

2.2.1 Motivation

2.2.2 IP-GAN network architecture

2.2.3 The learning algorithm of the disentangled identity and pose representation

2.3 Developing multi-functional generative method for controlled synthesis of face image (CtrlFaceNet)

2.3.1 Motivation

2.3.2 CtrlFaceNet network architecture

2.3.3 The learning algorithm

2.4 Visual data augmentation methodology

2.5 Summary

Chapter 3 Software implementation of the proposed methods and experimental results

3.1 Implementation of the developed method for learning identity and pose disentanglement (IP-GAN)

3.1.1 Experiments and discussion

3.1.1.1 Dataset

3.1.1.2 Implementation details

3.1.1.3 Features visualization

3.1.1.4 Face pose transformation

3.1.1.5 Random face generation

3.1.1.6 Identity similarities

3.1.1.7 Face image quality quantitative results

3.1.1.8 Face verification

3.1.1.9 Face identification task

3.1.1.10 Performance evaluation on large-scale dataset of unconstrained face still images

3.2 Implementation of the multi-functional developed method for controlled synthesis of face image (CtrlFaceNet)

3.2.1 Experiments and discussion

3.2.1.1 Dataset

3.2.1.2 Implementation Details

3.2.1.3 Controlled face image generation with a driving face image

3.2.1.4 Comparison results of controlled face image generation

3.2.1.5 Face geometry morphing

3.2.1.6 Face image inpainting

3.2.1.7 Face verification task using feature extractor trained on augmented dataset

3.2.1.8 Face identification task

3.3 Software implementation of facial images synthesis based on generative machine learning methods

3.3.1 Software development and programming tools

3.3.2 Implementation of algorithms for generating face images

3.4 Summary

Conclusion

List of abbreviations and conventions

References

List of Own Publications

List of Figures

List of Tables

Appendix A. Copies of Author's Publications

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Синтез изображений лиц на основе генеративных методов машинного обучения с применением к распознаванию лиц»

Реферат Общая характеристика работы

Актуальность темы. В современном мире распознавание и синтез изображений лиц широко используются в системах человеко-машинного взаимодействия, информационно-поисковых системах, системах безопасности различного уровня и назначения и т.д.

Сложность создания методов распознавания и синтеза изображений лиц состоит в том, что, с одной стороны, каждое человеческое лицо является уникальным, по которому можно определить такие его характеристики, как личность, возраст, пол, раса, эмоциональное и др. состояние человека; с другой стороны, лицо человека изменяется в течении его жизни из-за процессов взросления/старения, болезней, травм, косметических операций, а также из-за вариативности условий съемки изображений лиц (различная аппаратура видеосъемки, различные внешние условия, различное расположение человека перед камерой и др.).

Исследования в области автоматического распознавания и синтеза изображений лиц активно ведутся уже более 50 лет. В последние 20 лет большие успехи в этой области были достигнуты за счет использования методов машинного обучения, а в последние 10 лет - глубокого машинного обучения. Точность автоматического распознавания лиц в контролируемых условиях с использованием глубоких нейронных сетей приблизилась, а зачастую и превышает точность распознавания лиц человеком. Синтезированные с помощью глубоких нейронных сетей изображения лиц почти неотличимы от естественных.

Однако все еще существует проблема повышения точности распознавания лиц на больших галереях изображений лиц (десятки-сотни миллионов изображений и более), создания репрезентативных обучающих наборов лицевых данных для обучения глубоких нейронных сетей, учитывающих различные условия съемки. Для систем синтеза изображений лиц актуальной проблемой

является генерация по заданному изображению лица новых изображений с новыми позами и сохранением идентичности и цвета кожи человека, аксессуаров, восстановлением закрытых частей лица, а также генерация изображений лиц несуществующих личностей по заданным атрибутам.

Актуальность тематики подтверждается множеством докладов на профильных международных конференциях, таких как IEEE International Conference on Automatic Face & Gesture Recognition, International Conference on Visual Perception and Face Recognition и др.; специализированных секциях на таких ведущих конференциях по компьютерному зрению и искусственному интеллекту как IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), International Conference on Pattern Recognition (ICPR), IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) и др.; публикациями в ведущих журналах, таких как IEEE Transactions on Pattern Analysis and Machine Intelligence, Artificial Intelligence, Pattern Recognition, Pattern Recognition Letters и др.; проведением многочисленных международных конкурсов, таких как Face Recognition Grand Challenge (FRGC), Masked Face Recognition Challenge (MFR), Lightweight Face Recognition Challenge, People Fair Face Recognition Challenge и др. Многие передовые исследования размещены в виде препринтов на arXiv.org.

Степень разработанности темы исследования. Различные аспекты задач распознавания и синтеза изображений лиц рассмотрены в работах Г.А. Кухарева, А.С. Потапова, Н.Л. Щеголевой, A.K. Jain, B. Klare, Stan Z. Li, M. De Marsico, K. Nandakumar, A. Ross, K. Wang и др. Исследования в этих областях проводят ведущие отечественные и зарубежные научные и научно-технические организации: Новосибирский государственный технический университет, Томский государственный университет, Oxford University, Chinese Academy of Sciences, University of Maryland, Michigan State University, Massachusetts Institute of Technology, Chinese University of Hong Kong и др.

В последние два десятилетия были проведены многочисленные исследования по моделированию и синтезу изображений лиц, которые можно разбить на разные, но взаимосвязанные направления.

Конец 80-х ознаменовался подходом к представлению лиц - собственными векторами1 (eigenvectors). Позже, в 19912 году, это представление было предложено использовать в задаче распознавания лиц, поскольку изображение лица проецируется в подпространство главных компонент для нахождения набора собственных векторов, которые объясняют этот набор данных (метод главных компонент (МГК), англ. Principal Component Analysis (PCA)). Затем каждое изображение лица может быть представлено как линейная комбинация этих собственных векторов. Как только это будет сделано, можно будет реконструировать каждое лицо или даже синтезировать новые изображения лиц, манипулируя собственными векторами. Однако у этого подхода были свои недостатки, например, он не устойчив при работе с различными вариациями позы, освещения и выражения лица. Фактически, данный подход чувствителен к масштабу изображения и требует наличия равномерного фона.

С середины и до конца 90-х годов были предложены новые подходы к статистическим моделям и представлению подпространств. В 1992 году был предложен подход с использованием деформируемых шаблонов3 (Deformable Templates) для обнаружения и описания черт лиц, например, глаз и рта. Этот подход можно использовать для распознавания лиц и создания их контурных рисунков, но он медленный. Позже была предложена структура активного и динамического контроля для детального анализа, отслеживания и синтеза выражений лица и движений головы. В 1999 году была предложена морфируемая трехмерная модель4 (3D Morphable Model, 3DMM) путем расширения модели активной формы (Active Shape Model, ASM) для реконструкции лица из единственного исходного изображения. Следовательно, при заданном исходном 2D-изображении лица, оценочные параметры 3D-модели формы и текстуры могут

1 Sirovich L., Kirby M. Low-dimensional procedure for the characterization of human faces // Journal of the Optical Society of America A. 1987. Vol. 4, № 3.

2 Turk M., Pentland A. Eigenfaces for recognition // Journal of Cognitive Neuroscience. 1991. Vol. 3, № 1.

3 Yuille A.L., Hallinan P.W., Cohen D.S. Feature extraction from faces using deformable templates // International Journal of Computer Vision. 1992. Vol. 8, № 2.

4 Blanz V., Vetter T. A morphable model for the synthesis of 3D faces // Proceedings of the 26th Annual Conference on Computer Graphics and Interactive Techniques, SIGGRAPH 1999. 1999.

быть изменены для преобразования восстановленной 3D-ceTKH исходного изображения лица в соответствии с целевым изображением лица.

С начала 90-х годов развивались другие подходы, основанные на геометрическом моделировании. В 1991 году была предложена «форма из затенения»5 (Shape From Shading, SFS) для восстановления трехмерной геометрии лица из одного монокулярного изображения. Позже был представлен дифференциально-геометрический метод для извлечения и восстановления трехмерных поверхностей непосредственно из захваченных изображений с использованием карт частотного несоответствия. В 2006 году был предложен метод иерархических пирамид6, с помощью которого можно получать геометрию лица с высоким разрешением. Следовательно, каждая деталь лица может быть изменена в полученной сетке лица или даже может быть перенесена на другую сетку лица.

За последние несколько лет был разработан ряд новых архитектур и алгоритмов глубокого обучения для автоматического синтеза изображений лиц, таких как вариационные автоэнкодеры7 (Variational Autoencoders, VAE) и генеративные состязательные сети8 (Generative Adversarial Networks, GAN). Эти подходы позволяют создавать полное изображение лица непосредственно на выходе нейронной сети. Несколько исследовательских работ продемонстрировали эффективность использования GAN для синтеза изображений лица с новыми атрибутами (pix2pix, CycleGAN, StarGAN, UNIT, icGAN, DNA-GAN, GC-GAN), для поворота лица (LB-GAN, DA-GAN, DR.-GAN, SD-GAN), фронтализации лица (TP-GAN, FF-GAN), анимации изображения лица (X2Face, FS-GAN) и восстановления закрытых частей изображения лица (PICNet). Хотя эти подходы дают впечатляющие результаты, они требуют наличия дополнительной

5 Leclerc Y.G., Bobick A.F. The direct computation of height from shading. 1991.

6 Golovinskiy A. et al. A statistical model for synthesis of detailed facial geometry // ACM SIGGRAPH 2006 Papers, SIGGRAPH '06. 2006.

7 Kingma D.P., Welling M. Auto-encoding variational bayes // 2nd International Conference on Learning Representations, ICLR 2014 - Conference Track Proceedings. 2014.

8 Goodfellow I.J. et al. Generative adversarial nets // Advances in Neural Information Processing Systems. 2014.

информации в виде разметки, например, указания позы головы, параметров 3DMM и фронтального положения лица. Кроме того, они не сохраняют цвет кожи исходного изображения лица при обучении в неконтролируемых условиях с использованием крупномасштабной неограниченной базы данных. Более того, некоторые из этих подходов полагаются на предварительно обученные модели для извлечения представлений лица.

Существует множество сложных проблем в реальных сценариях распознавания лиц, к которым относятся:

1. Вариации позы, освещения и выражения лица (Pose, Illumination, and Expression, PIE), поскольку в реальных сценариях распознавания лиц (Face Recognition, FR) приходится иметь дело с неконтролируемыми внешними условиями, в которых входные изображения имеют фоновый шум, различную освещенность, большие расхождения в позах головы и закрытие части лица.

2. Необходимость большого объема аннотированных наборов изображений лиц, полученных в разнообразных условиях съемки, тем более что использование глубоких нейронных сетей требует наличия больших наборов изображений лиц для обучения. Современные системы FR показывают хорошую точность распознавания на таких наборах, но их сбор и аннотирование может быть долгим и трудоемким. Кроме того, недостатком существующих наборов изображений лиц является недостаточная репрезентативность изображений лиц для каждого человека (класса) в различных условиях, а также несбалансированность распределения поз между классами.

Для решения проблемы вариаций поз было предложено много методов, которые можно разделить на два класса:

1. Методы, основанные на извлечении инвариантных к позе признаков, например, такие как метод метрического обучения (metric learning) и отображения признаков (feature mapping), которые преобразуют представление изображений лиц в разных позах во фронтальные изображения лиц для упрощения распознавания.

2. Методы, основанные на синтезе для генерации фронтальных изображений лиц, которые могут непосредственно использоваться системами распознавания лиц без их переобучения.

Чтобы решить проблему недостаточной репрезентативности обучающих наборов лицевых данных, возможны два подхода.

1) Расширение (аугментация) наборов лицевых данных. Традиционные методы аугментации визуальных данных изменяют изображения лиц путем переноса значений пикселей изображения на новые позиции или путем смещения цветов пикселей в новые значения. Примерами являются увеличение или уменьшение масштаба, поворот или отражение изображения, преобразование путем искажения и обрезки. Эти методы имеют ряд недостатков, например:

- При масштабировании они плохо передают вариации внешнего вида лица, такие как макияж, освещение и цвет кожи.

- При повороте головы не удается сохранить узнаваемость (идентичность) лица человека. Это сложная проблема и она все еще находится в стадии исследования.

2) Синтез лица с использованием генеративных методов машинного обучения, которые компенсируют перечисленные выше недостатки.

Все это приводит к выводу, что создание новых реалистичных изображений лиц с управляемыми позами, чертами лица и выражениями лиц является сложной задачей генеративного обучения из-за вариаций поз, выражений лица, тона кожи, проблем с сохранением идентичности, отсутствия достаточного объема наборов изображений в процессе обучения.

Одним из основных и важных направлений исследований является разработка системы синтеза изображений лица для создания новых лиц с новыми позами, чертами лица и выражениями лица с сохранением индивидуальности объекта и его цвета кожи. Данная система синтеза может быть затем использована для аугментации лицевых наборов данных с целью повышения точности систем распознавания лиц, поскольку, с одной стороны, вариации позы по-прежнему являются узким местом для многих реальных сценариев распознавания лиц, а с

другой стороны, они относительно недостаточно представлены в обучающих наборах данных систем распознавания лиц.

Целью диссертационной работы является исследование и развитие генеративных методов синтеза изображений лиц для повышения точности распознавания лиц в различных условиях съемки.

Для достижения поставленной цели были поставлены и решены следующие задачи:

1. Исследование современных методов и алгоритмов синтеза изображений лиц с различными атрибутами.

2. Разработка архитектуры глубокой нейронной сети и алгоритма ее обучения для генерации как изображения лица конкретного человека с различными позами, так и несколько изображений лиц с конкретной позой, сохраняя идентичность, выражение лица и цвет кожи в контролируемых условиях съемки, не используя для этого какой-либо явной разметки поз головы.

3. Разработка архитектуры глубокой нейронной сети и алгоритма ее обучения для изменения позы, выражения и черт лица на изображении с сохранением идентичности и цвета кожи в неконтролируемых условиях съемки, а также решения проблемы восстановления скрытых частей изображений лиц.

4. Разработка методики аугментации обучающих наборов изображений лиц на основе предложенных методов синтеза изображений лиц с целью повышения репрезентативности обучающих лицевых данных, используемых системами распознавания лиц.

5. Разработка комплекса программных средств и подготовка наборов лицевых данных для реализации предложенных архитектур нейронных сетей и алгоритмов их обучения для синтеза и распознавания лиц на основе глубокого машинного обучения.

6. Проведение экспериментальных исследований по синтезу и распознаванию лиц с использованием разработанного программного комплекса для подтверждения теоретических результатов.

Объектом исследования являются изображения лиц, модели, методы и алгоритмы их синтеза и распознавания.

Предметом исследования является методы и алгоритмы синтеза изображений лиц с произвольной позой, выражением и чертами лица на основе глубоких нейронных сетей применительно к распознаванию лиц.

Область исследования соответствует следующему пункту паспорта специальности 05.13.17 - «Теоретические основы информатики» (технические науки): 7. Разработка методов распознавания образов, фильтрации, распознавания и синтеза изображений, решающих правил. Моделирование формирования эмпирического знания.

Научная новизна:

1. Предложен метод синтеза изображений лиц с новыми позами, основанный на использовании архитектуры генеративной состязательной сети IP-GAN и неконтролируемого (unsupervised) алгоритма обучения этой глубокой нейронной сети. Предложенная архитектура IP-GAN обеспечивает кластеризацию признаков идентичности одного и того же человека в расцепленном пространстве признаков независимо от изменения позы, а также обеспечивает повышение эффективности обучения за счет использования либо признаков идентичности, либо признаков позы, что позволяет генерировать как изображения лица конкретного человека с различными позами, так и несколько изображений лиц с конкретной позой. Предложенный алгоритм обучения решает задачу обучения IP-GAN синтезу ранее неизвестных изображений лиц с помощью схемы генерации, а также передачи признаков позы между двумя образцами изображений лиц с использованием схемы трансформации, сохраняя идентичность, выражение лица и цвет кожи в контролируемых условиях съемки, не используя для этого какой-либо явной разметки поз головы.

2. Предложен метод синтеза изображения лица с геометрическими характеристиками от другого изображения лица, основанный на использовании архитектуры генеративной состязательной сети CtrlFaceNet и неконтролируемого (unsupervised) алгоритма обучения этой глубокой нейронной сети. Предложенная

архитектура CtrlFaceNet вместо исходного изображения лица использует набор его ключевых биометрических точек (landmarks), что позволяет управлять позой, выражением и чертами лица с сохранением идентичности и цвета кожи в неконтролируемых условиях съемки. Данный метод позволяет повысить точность распознавания лиц, дополняя обучающий набор данных новыми изображениями лиц с большими вариациями поз, выражений и черт лица, а также решает проблему восстановления скрытых частей изображений лиц. Предложенный алгоритм обучения, не используя каких-либо явных геометрических меток, позволяет обучить CtrlFaceNet генерированию новых реалистичных изображений лиц из одного статического изображения путем манипулирования позой головы, выражением и чертами лица, а также, используя функцию потерь для стиля, обучить CtrlFaceNet сохранять цвет кожи заданного изображения лица.

3. Предложена методика аугментации обучающих наборов изображений лиц, в которой на основе использования разработанных методов генеративного синтеза изображений лиц реализуется процедура морфинга (интерполяции) в латентном пространстве геометрических признаков для увеличения объема обучающих лицевых данных с целью повышения их репрезентативности, что может быть использовано на этапе обучения систем распознавания лиц с целью повышения точности распознавания лиц в различных условиях съемки.

Основные положения, выносимые на защиту:

1. Метод синтеза изображений лиц с новыми позами, основанный на использовании предложенной архитектуры генеративной состязательной сети IP-GAN и неконтролируемого (unsupervised) алгоритма обучения этой глубокой нейронной сети, позволяющий в контролируемых условиях съемки генерировать изображения лица конкретного человека с различными позами или несколько изображений лица с конкретной позой, сохраняя идентичность, выражение лица и цвет кожи, не используя при обучении какой-либо явной разметки поз головы.

2. Метод синтеза изображения лица с геометрическими характеристиками от другого изображения лица, основанный на использовании предложенной архитектуры генеративной состязательной сети CtrlFaceNet и предложенного

неконтролируемого (unsupervised) алгоритма обучения этой глубокой нейронной сети, позволяющий в неконтролируемых условиях съемки генерировать новые реалистичные изображения лиц из одного статического изображения с сохранением идентичности и цвета кожи путем манипулирования позой головы, выражением и чертами лица, а также решающий проблему восстановления скрытых частей изображений лиц, не используя при обучении каких-либо явных геометрических меток.

3. Методика аугментации обучающих наборов лицевых данных, в которой на основе использования разработанных методов генеративного синтеза изображений лиц реализуется процедура морфинга (интерполяции) в латентном пространстве геометрических признаков для увеличения объема обучающих лицевых данных с целью повышения их репрезентативности, что может быть использовано на этапе обучения систем распознавания лиц с целью повышения точности распознавания лиц в различных условиях съемки.

Методология и методы исследования. Используется широко распространенная в прикладных научных исследованиях методология: постановка целей и задач, анализ соответствующей литературы и текущих результатов работ, разработка методов и алгоритмов, экспериментальная оценка их эффективности. При решении задач диссертационного исследования использовались методы машинного обучения, распознавания образов, линейной алгебры, теории вероятностей, цифровой обработки изображений и современных методов разработки программного обеспечения.

Достоверность научных положений, результатов и выводов, полученных в рамках диссертационной работы, подтверждается корректной и обоснованной постановкой задач, результатами экспериментальных исследований и успешным представлением основных положений в докладах на ведущих международных конференциях, согласованностью результатов исследований с результатами других авторов и успешной реализацией практических результатов.

Теоретическая значимость работы заключается в развитии методов, основанных на генеративных состязательных нейронных сетях, и алгоритмов их

обучения для синтеза изображений лиц с новыми атрибутами и сохранением идентичности, а также их использования для повышения точности систем распознавания лиц.

Практическая значимость работы заключается в возможности использования разработанных методов как для аугментации наборов изображений лиц, используемых на этапе обучения систем распознавания лиц, так и коррекции позы и выражения, восстановления скрытых частей предъявленных к распознаванию изображений лиц. Все это позволяет повысить точность работы как разрабатываемых, так и уже существующих систем распознавания лиц. Кроме того, предложенные методы синтеза изображений лиц могут быть полезны в большом числе приложений, где требуется генерация новых реалистичных изображений лиц.

Внедрение результатов работы. Результаты диссертационной работы в учебный процесс Университета ИТМО по магистерской образовательной программе «Речевые информационные системы» в дисциплине «Многомодальные биометрические системы», а также использовались при проведении прикладных научных исследований:

- НИР «Методы, модели и технологии искусственного интеллекта в биоинформатике, социальных медиа, киберфизических, биометрических и речевых системах» (проект 5-100) № 718574.

- НИР «Синтез эмоциональной речи на основе глубокого машинного обучения» № 617040.

- НИР «Синтез эмоциональной речи на основе генеративных состязательных сетей» № 618278.

- НИР «Создание гибридной системы диалогового взаимодействия на естественном языке, способной к самообучению, самостоятельному принятию решений и прогнозированию, на основе обработки больших данных, глубоких нейронных сетей и искусственного интеллекта», соглашение № 14.575.21.0178 от 26.11.2018, заказчик «Минобрнауки».

Апробация результатов работы. Основные результаты работы представлялись и обсуждались на следующих международных и российских конференциях: XLVIII и XLIX Научной и учебно-методической конференциях Университета ИТМО (Санкт-Петербург, Россия, 2019-2020); VII, VIII и IX Всероссийском конгрессе молодых ученых (Санкт-Петербург, Россия, 2018-2020); 2018 IEEE Conference on Data Science: Challenges of Digital Transformation (2018 IEEE DSDT) (Санкт-Петербург, Россия, 2018); 8th International Scientific Conference "Techsys 2019" - Engineering, Technologies and Systems (София, Болгария, 2019); 5th International Conference on Engineering & MIS 2019 (Астана, Казахстан, 2019); ICANN 2019: 28th International Conference on Artificial Neural Networks (Мюнхен, Германия, 2019).

Личный вклад автора состоит в проведении запланированных в диссертационной работе теоретических и экспериментальных исследований. Автором лично выполнен аналитический обзор относящихся к рассматриваемой теме современных подходов, в том числе аугментации наборов лицевых данных, проведен анализ существующих подходов генерации изображений лица с новыми атрибутами. На основе проведенного анализа автором предложены, разработаны и исследованы методы, основанные на генеративных состязательных сетях, для синтеза изображений лиц и их применению для распознавания лиц. Проведены эксперименты, подтверждающие эффективность предложенных методов.

Подготовка основных публикаций проводилась с соавторами, при этом вклад автора был основным. Автор лично представлял все опубликованные материалы на конференциях.

Публикации. Основные результаты по теме диссертации изложены в 12 публикациях. Из них 1 издана в журнале, рекомендованном ВАК, 7 опубликованы в изданиях, индексируемых в базе цитирования Scopus. Также имеется 1 свидетельство о государственной регистрации программ для ЭВМ.

Объем и структура диссертации. Диссертационная работа состоит из введения, трех глав, заключения и списка литературы. Материал изложен на 156

страницах, включает 13 таблиц, 74 рисунка и схем. В список использованных источников входит 118 наименований.

Содержание диссертации

Во введении диссертации представлен краткий обзор результатов исследований по изучаемому вопросу, определена проблема, приведены обоснования актуальности темы исследования. Формулируются цель, задачи и основные гипотезы. Указаны научная новизна и практическая значимость полученных результатов.

Первая глава посвящена обзору и изучению классических и современных методов и алгоритмов синтеза изображения лица с помощью нейронных сетей. В разделе 1.1 рассмотрены исторические этапы, сыгравшие решающую роль в развитии синтеза изображения лица, а именно: статистические модели и подпространства представления, геометрическое моделирование, основные методы преобразования и обучения. Даны общепринятые определения вариационного автокодера и генеративно-состязательных нейронных сетей (Generative Adversarial Network, GAN), описаны алгоритмы работы, а также связанные с ними параметры. Существующие виды генеративно-состязательных нейронных сетей, их архитектуры, особенности и связанные с ними алгоритмы обучения описаны в разделе 1.2. Различные метрики производительности, необходимые для оценки качества синтеза изображений и распознавания лиц подробно описаны в разделе 1.3.

Приведены прямые 2D/3D методы синтеза изображения лица. Описаны известные и наиболее популярные виды генеративных нейронных сетей, использующихся для синтеза изображения лица с новыми идентичностями. Приведены результаты работы и характеристики каждой из сетей. Недостатки существующих генеративных подходов к решению задачи синтеза фотореалистичных изображений лиц на основе неподвижного (still) изображения,

с сохранением идентичности и тона кожи, без использования аннотированных наборов данных, были выявлены в разделе 1.4.

Подробно описаны два основных подхода к синтезу изображений лиц:

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Список литературы диссертационного исследования кандидат наук Зено Бассель, 2022 год

— —

y y

u u

_ _

CNN

^C adv2

—^ I

^..... LD2adv

Therefore,

ri =(x, y), r2 = (u, y), f1 =(x y), f2 = (U y),

where, u c x,u contains 11 selected linguistic features. The loss functions for the first and the second discriminators will be as follows:

LD1 = LD1adv,

adv '

Table 1 MOS scores

where,

LD1 adv

LD2adv

Er1~data N DlM + Efi [1 - log Di(fi)],

^r2~data N Dl(ri)]

+ E/2[1 - log Df)],

where LDaCdv and LDaCulv - adversarial losses of D1 and D2. The adversarial loss functions of G are:

Loadv1 = Ef [1 - log(D1if1))}, Loadv2 = Ef2 [1 - logDf))}.

The final error function of Generator will be:

: Lmse + w1

ET

Er

^Gadvi

e

+ w2

Er

-'Gadvo

where Lmse(y,y) = ||y - y||2; ^ elg^2 -expected

Lmse and

values of Lmse, LGadv< and LGadV2 respectively;

LGadv,

ms - normalization coefficients; w1 and w2 - the weights

LGadv2

of loss functions.

During training, Discriminators learn the relationship between the acoustic and the linguistic parameters, then they force Generator to improve the accuracy of prediction. Thus, the proposed framework of CAAG-GAN allows us to solve the main problems of our speech corpus: the poorly balanced phonetic representation and the inaccurate labelling.

3 Results and Discussion

3.1 Neural network configuration

As a generator, we used the pre-trained LSTM Zia and Zahid (2019), and CNN Passricha and Aggarwal (2019), Sun et al. (2018) served as Discriminators. The LSTM architecture is a

MOS 95%

confidence

interval

GAN 3.46 (3.06;3.89)

CAAG-GAN 3.66 (3.46;3.85)

Table 2 Preference test results for GAN and CAAG-GAN speech synthesis

GAN CAAG-GAN No preferences

27% 54% About 20%

3-layer NN, each layer has 256 memory blocks. The hyperbolic tangent (Tanh) activation function for each layer in LSTM was also used. Each of our Discriminators consisted of one convolutional layer with pooling, a rectified linear unit (ReLU) activation and full-connected layers, followed by one full-connected layer. The output of each Discriminator is a 1D vector representing the probability of the input to be "real" or "fake".

3.2 Evaluation

The preference test and the MOS score on a 5-point scale were conducted to evaluate quality of the synthesized speech. 11 native speakers of the Kazakh language participated in the evaluation, who were asked to assess 6 sets of the records. For each set, the listeners were asked to listen and evaluate each record separately, and to select the most preferred method of speech synthesis. Each set consisted of two records, synthesized using the acoustic model of GAN and CAAG-GAN. Listeners were allowed to listen each record unlimited number of times, but we recommended to limit to 2-3 auditions.

Table 1 presents the results of the MOS evaluation and Table 2 shows the results of the preference evaluation among the participants. According to MOS scores, both methods have a similar level of perception, with the exception of a small advantage of the Pair-Agent GAN. In addition, according to the results of the survey, participants mostly noted Pair- Agent GAN speech synthesis as a preferable option than GAN.

It should be noted that usually in the neural TTS, MOS is expected to be higher 4. But in our case for the Kazakh language, MOS is lower 4. This is due to the limitation that we had access to the speech corpus for speech synthesis with a training set consisting of only 5.6 hours of neutral speech. This limitation does not provide high-quality speech

L

D

l

G

synthesis. By increasing the size of the training dataset, the quality of the synthesized speech should be higher.

3.3 Discussion

We believe, the used linguistic and prosodic parameters do not fully reflect the features of the Kazakh language required for high-quality speech synthesis. In particular, the Kazakh language is an agglutinative language, where special rules of vowel harmony apply; which is reflected in:

• special rules for the construction of words and phonemes;

• special sound of the same phonemes in different combinations of phoneme sequences.

It is also worth noting the great influence of tonality on the Kazakh language, which still remains insufficiently investigated. It is still unclear how much tonality affects the perception of the Kazakh speech, and what role it plays in the language.

The presented method of speech synthesis shows an acceptable quality of speech perception. In our opinion, to improve the quality of synthesized speech and bring it to the state-of-the-art results, it is sufficient to increase the amount of training data.

4 Conclusion

The Kazakh speech is characterized by vowel harmony, or harmony, which is expressed in a special rule for the construction of words and phonemes, and in their special sound in different combinations. Therefore, for the qualitative synthesis of Kazakh speech, linguistic features (positional, morpho-grammatical, phonetic, etc.) are essential. In the paper we have proposed technique that makes it possible to consider linguistic parameters both separately and in combination with acoustic features. Using both linguistics and phonetic features, we have harnessed the power of the GAN architecture.

We have introduced a new framework CAAG-GAN to train the acoustic model for the Kazakh speech synthesis. The presented approach improves the accuracy of the acoustic model due to the Pair of Agents that do not only pay attention to the distribution of acoustic parameters, but also to the relationship between linguistic and acoustic parameters. Despite the fact that training and testing were conducted on the Kazakh speech corpus, we argue that this approach is also acceptable to other languages.

In the near future, we plan to expand the Kazakh speech corpus, and continue to study the prosodic features of Kazakh language.

Acknowledgements The study is financially supported by the Russian Science Foundation (Project No 18-18-00063) and the Russian Foundation for Basic Research (Project 19-57-45008-IND_ a).

References

Berment, V. (2004). Methods to computerize "little equipped" languages and groups of languages. Theses: Université Joseph-Fourier - Grenoble I.

Bollepalli, B., Juvela, L., & Alku, P. (2019). Generative adversarial network-based glottal waveform model for statistical parametric speech synthesis. arXiv e-prints, p. arXiv:1903.05955.

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial nets. in Advances in Neural Information Processing Systems 27 (Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger, eds.), pp. 2672-2680, Curran Associates, Inc.

Han, J., Zhang, Z., Ren, Z., Ringeval, F., & Schuller, B. W. (2018). Towards conditional adversarial training for predicting emotions from speech. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6822-6826.

Kaliyev, A., Rybin, S. V., & Matveev, Y. N. (2018). Phoneme duration prediction for Kazakh language. In A. Karpov, O. Jokisch, & R. Potapova (Eds.), Speech and computer (pp. 274-280). Cham: Springer International Publishing.

Kaliyev, A., Rybin, S. V., & Matveev, Y. N. (2017). The pausing method based on brown clustering and word embedding. In A. Karpov, R. Potapova, & I. Mporas (Eds.), Speech and computer (pp. 741-747). Cham: Springer International Publishing.

Kaliyev, A., Matveev, Y. N., Lyakso, E. E., & Rybin, S. V. (2018). Prosodic processing for the automatic synthesis of emotional russian speech. in 2018 IEEE International Conference "Quality Management, Transport and Information Security, Information Technologies" (ITQMIS), Proceedings of the 2018 International Conference "Quality Management, Transport and Information Security, Information Technologies", IT and QM and IS 2018, (United States), pp. 653-655, Institute of Electrical and Electronics Engineers Inc.

Kaliyev, A., Rybin, S. V., Matveev, Y. N., Kaziyeva, N., & Buram-bayeva, N. (2018). "Modeling pause for the synthesis of kazakh speech," in Proceedings of the Fourth International Conference on Engineering & MIS 2018, ICEMIS '18, (New York, NY, USA), pp. 1:1-1:4, ACM.

Karpov, A., & Verkhodanova, V. (2015). Speech technologies for under-resourced languages of the world. Voprosy Jazykoznanija, 20162015, 117-135.

Khomitsevich, O., Mendelev, V., Tomashenko, N., Rybin, S., Meden-nikov, I., & Kudubayeva, S. (2015). A bilingual Kazakh-Russian system for automatic speech recognition and synthesis. In A. Ron-zhin, R. Potapova, & N. Fakotakis (Eds.), Speech and computer (pp. 25-33). Cham: Springer International Publishing.

Krauwer, S. (2003). The basic language resource kit (blark) as the first milestone for the language resources roadmap. Proceedings of SPECOM, 2003, 8-15.

Kumar, K., Kumar, R., de Boissiere, T., Gestin, L., Teoh, W. Z., Sotelo, J., de Brébisson, A., Bengio, Y., & Courville, A. C. (2019). MelGAN: Generative adversarial networks for conditional waveform synthesis. in Advances in Neural Information Processing Systems, vol. 32, Curran Associates, Inc.

Liu, B., Nie, S., Zhang, Y., Ke, D., Liang, S., & Liu, W. (2018). Boosting noise robustness of acoustic model via deep adversarial training. CoRR, vol. abs/1805.01357.

Ma, S., Mcduff, D., & Song, Y. (2019). A generative adversarial network for style modeling in a text-to-speech system. in International Conference on Learning Representations, vol. 2.

Mon, A. N., Pa, W. P., & Thu, Y. K. (2019). Ucsy-sc1: A myanmar speech corpus for automatic speech recognition. International Journal of Electrical and Computer Engineering, 9, 3194-3202.

Morise, M. (2016). D4c, a band-aperiodicity estimator for high-quality speech synthesis. Speech Communication, 84, 57-65.

Morise, M., Yokomori, F., & Ozawa, K. (2016). World: A vocoder-based high-quality speech synthesis system for real-time applications. IEICE Transactions on Information and Systems, E99, 1877-1884.

Passricha, V., & Aggarwal, R. K. (2019). PSO-based optimized CNN for Hindi ASR. International Journal of Speech Technology, 22, 1123-1133.

Saito, Y., Takamichi, S., & Saruwatari, H. (2018). Statistical parametric speech synthesis incorporating generative adversarial networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26, 84-96.

Skerry-Ryan, R. J., Battenberg, E., Xiao, Y., Wang, Y., Stanton, D., Shor, J., Weiss, R. J., Clark, R., & Saurous, R. A. (2018). Towards end-to-end prosody transfer for expressive speech synthesis with tacotron. CoRR, vol. abs/1803.09047.

Sotelo, J., Mehri, Soroush., Kumar, K., Santos, J. F., Kastner, K., Cour-ville, A., & Bengio, Y. (2017). Char2wav: End-to-end speech synthesis. in International Conference on Learning Representations (Workshop Track), pp. 1-6.

Sun, L., Chen, J., Xie, K., & Gu, T. (2018). Deep and shallow features fusion based on deep convolutional neural network for speech emotion recognition. International Journal of Speech Technology, 21, 931-940.

Taigman, Y., Wolf, L., Polyak, A., & Nachmani, E. (2017). Voice synthesis for in-the-wild speakers via a phonological loop. CoRR, vol. abs/1707.06588.

Yamamoto, R., Song, E., & Kim, J. (2020). Parallel wavegan: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram. in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6199-6203.

Yang, S., Xie, L., Chen, X., Lou, X., Zhu, X., Huang, D., & Li, H. (2017). Statistical parametric speech synthesis using generative adversarial networks under a multi-task learning framework. in 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pp. 685-691.

Yang, J., Lee, J., Kim, Y., Cho, H.-Y., & Kim, I. (2020). VocGAN: A high-fidelity real-time vocoder with a hierarchically-nested adversarial network. in Proc. Interspeech, pp. 200-204.

Yang, G., Yang, S., Liu, K., Fang, P., Chen, W., & Xie, L. (2020). Multi-band MelGAN: Faster waveform generation for high-quality text-to-speech. CoRR, vol. abs/2005.05106.

Zhao, Y., Takaki, S., Luong, H., Yamagishi, J., Saito, D., & Minematsu, N. (2018). Wasserstein gan and waveform loss-based acoustic model training for multi-speaker text-to-speech synthesis systems using a wavenet vocoder. IEEE Access, 6, 60478-60488.

Zia, T., & Zahid, U. (2019). Long short-term memory recurrent neural network architectures for Urdu acoustic modeling. International Journal of Speech Technology, 22, 21-30.

Publisher's Note Springer Nature remains neutral with regard to

jurisdictional claims in published maps and institutional affiliations.

ПРИКЛАДНАЯ ИНФОРМАТИКА / JOURNAL OF APPLIED INFORMATICS

_ [ Том 13. № 1 (73). 2018 ]

B. H. Zeno, Postgraduate, ITMO University, Saint-Petersburg, Russia, bzeno@corp.ifmo.ru

Face validation using skin, eyes and mouth detection

In unconstrained facial images, large visual variations such as those due to pose, scale, presence of occlusions, expressions and lighting cause difficulties in discriminating faces from the background accurately, so as a result, there are non-face regions that are recognized as faces (false positive), whereas the effectiveness of face detection algorithms is characterized by low false positive (FP) rate, high detection rate and high speed of processing. So, to reduce these non-face regions, instead of developing accurate face detection algorithm that needs much time for processing, face validation step will be added after the detection. In this paper, new fast face validation method is proposed. It consists of two steps, the first one is skin detection using YCbCr color method. The second step is eyes and mouth detection using Cascading approach; In this step, region of candidate face is divided into two overlapping regions, one for the eye detection model and the other for mouth detection model. For evaluation our method, SVM face detection algorithm is used as a baseline validation algorithm. The experimental results on FDDB dataset showed a better performance of our proposed method (2 ms validation time compared to 500 ms in the SVM algorithm) and a similar number of rejected FP.

Keywords: face detection, validation, false positive, cascading approach.

Introduction

Face detection is one of the mostly studied problems in vision, it has been actively researched for over two decades [1]. Face detection is considered as a problem of single-class object detection, and it is an important field of research in computer vision, because it forms a necessary first step for many face processing systems such as face recognition, face tracking, face verification and identification or facial expression analysis. The purpose of the face detection step is to determine whether there are any faces in an image (or video sequence) or not, it is a classification between faces and non-faces. So, if there are faces, the detection system will return their positions and scales or in other words «face localization», but what are the algorithms which allow computers to detect faces in images.

Actually, the field of Machine Learning is filled with many algorithms for learning com-

plex representations and models from training data and distinguishing between different categories (faces vs non-faces). This distinguishing requires different algorithms than distinguishing between similar object categories (motorcycles vs bicycles), because the distribution of non-faces or background is very widespread in contrast of face distribution that is small.

There are a wide range of face detection algorithms, most famous of them have been based on cascading approach [2-5] and Deformable Parts Models (DPMs) [6-9]. More recently, following the success of deep learning for computer vision, e. g. [10-14], methods based on Convolutional Neural Networks (CNNs) have been applied to object detection tasks, e. g. [10].

Many face detection systems contain one step that verifies the ROIs classified as faces. These ROIs may contain many non-face regions or false positives that must be rejected. The validation step filters false positives, using criteria that do not overlap with the classifier.

[ 69 ]

In [15] two step algorithms were proposed to detect faces automatically in 2D color images depicting a single face on a complex background. At first a skin detection module determines the skin regions. Afterwards, a validation step based on a SVM classifier that discriminates between faces and non-faces among all the regions maintained by the previous step; the validator is trained using wavelet features to recognize eyes, meaning that detecting at least one eye within a skin region determines the presence of a face or not. Regarding execution times, it takes approximately 8 seconds to find skin regions of an 800 x 600 image. After that, it takes roughly 6 seconds to detect faces within the same image.

In [16] a generative approach for face verification was proposed, based on an LBP description of the face that has been detected by Viola-Jones algorithm. The verification module was composed of two steps: feature extraction and feature classification. In first step, a generic face model was considered as a collection of LBP-histograms, then A client-specific verification model was obtained by an adaptation technique from this generic model under a probabilistic framework (Maximum a posteriori estimation MAP).

In [17] a face detection system that combines several face/eye detectors was proposed to detect frontal faces, the goal of this research was to improve accuracy and reliability of the face detection system. it is composed of two steps. In the first step, two face detectors are combined to extract regions of candidate faces from an image. In the second step, new eye detection method was proposed to filtering out of the false positives using SVM classifier. this system obtained an accuracy of almost 100% on the BioID dataset [18].

In [19] eye detection approach was proposed to improve face detection accuracy and reliability. The developed eye detector was incorporated into an ensemble face-localization system. The eye classification module is based on two texture descriptors: multiresolution local ternary patterns (LTP) [20], local phase quanti-

zation (LPQ) [21], The support vector machine was trained using these extracted features from eye and non-eye samples. This system obtained a detection rate greater than 99 percent on the BioID dataset.

In [22] the face localization system based on skin color was proposed, it was divided into two parts. The first part presumable face candidates are looked for and in second there are eliminated inappropriate candidates on the basis of founds eyes and lip positions. To find the face region candidates, skin-like color segmentation, wavelet transform and morphologic operations were used. And for localization lips, the color transformation was used, which comes out from presumption that color of lips composition consists of high levels of red and low levels of blue of color space RGB. Finally, to locate eyes positions, similar method to lips localization was used. This system obtained a detection rate 93.4% on Georgia Tech face database [23].

In [24] face detection algorithm is based on YCbCr color method with lighting compensation technique and nonlinear color transformation was proposed. It relies on two steps. At first the skin region is detected from image, and then face candidates are found from grouping skin region. Then eye and mouth maps are constructed as a triangle relationship between them.

In [25] the model of human skin color was proposed. It is based on statistical data in different color spaces. Using this model, the pixels of image is divided into two groups, skin pixel group and non-skin pixel group, and then using some geometric features of face it will be decided which area belongs to face.

Some of methods that are reviewed above use only color of skin to validate faces, and the others use eye detection to achieve that. In this work we will combine three methods to validate candidate detected faces, YCbCr color method is used to detect skin color, then haar-cascading method is used to detect eyes and mouth.

In section 1, we present the hypothesis validation, and in section 2, we present the baseline detection and validation methods that we use,

then in section 3, we present the proposed validation method. Experiments is presented in section 4, discussion and results in section 5 and in section 6, we present the conclusion.

1. Hypothesis Validation

A common problem of many face detection algorithms is occurrence of false-positive detections or non-face regions that effects on False Alarm Rate. To reduce the problem, it is needed to build a validation step after detection by computing a descriptor from each detected window then use classifier to verify the detected category, whether it is a face or non-face. See fig. 1.

V (w ) = {face SCOre "9

v l' [ non - face score < 9

Where, V: validator, wl: detected box classified as face, score: validation confidence value, 9: the threshold, determined through testing to achieve best false alarm rate.

2. Baseline Detection and Validation Methods

• Haar-Cascading, Viola Jones Face Detector [2]

Viola and Jones proposed an efficient cascade framework that rapidly discards negatives and spends more time in positive candidates. The cascade framework is one of the most suc-

cessful practical products of vision research. This algorithm minimizes computation time while achieving high detection accuracy. It is 15 times quicker than any technique at the time of release with 95% accuracy at around 17 fps. Viola Jones algorithm has four stages: Haar feature selection, creation of an integral image, Adaboost training, and cascaded classification, see fig. 2. Viola Jones algorithm uses a cascade of weak classifiers to make a strong classifier Eq(1):

T

H (x) = slgn(£atht (x)) Eq(1)

t=1

where, H(x) is a strong classifier obtained from the set of weak classifiers ht(x), T is the total number of possible features in an image subwindow and at, weight applied to classifier t as determined by AdaBoost.

• Hog-SVM Classifier using MMOD method

To validate the detected faces in the feed obtained from the Haar-Cascade Face Detector, we use a fast detector based on Maximum Margin Object Detection (MMOD) method [26]. This method does not perform any sub-sampling, but instead optimizes over all candidate windows.

This algorithm takes a set of images |xj.x2. . xn}cX and associated labels

{y1. y2. . yn} c Y and attempts to find a w parameter vector by the following convex optimization problem Eq (2):

Fig. 1. Detection-validation system

All Sub-Windows from Input Image

Cascade Detector

JStage 1 Stage 2 Stage 3

Stage N

Weak Classifier

is trained based on the | selected Haar-Like features by AdaBoost learning algorithm

Final Detected Faces

Fig. 2. Viola — jones face detection process

• 1|| l|2 min— w

- 211 11

s. t. F(x,.,y,)>max[F(x,,y,)+A(y,y)],Vi Eq(2)

yeY

Where A( y.y,) denotes the loss for predicting a labeling of y when the true labeling is yi, and F (xi. yi) denotes to score of the true y, labeling of an image x.

Eq(2) means that the parameter vector w should be satisfied as often as possible that the score for the correct labeling of xi to be larger than the scores for all the incorrect labelings.

The scoring function that used is linear in its parameters Eq (3):

F ( x, y) = (w, ф( x, r )}

Eq(3)

where 9 extracts a Histograms of Oriented Gradient feature vector from the sliding window at location r in image x and w denotes to parameter vector.

At the end to solve this Max-Margin Object Detection optimization problem, described in Eq(2), cutting-plane training of structural svms is used [27, 28].

3. Proposed Method: Face Validation Using Skin, Mouth and Eyes

The proposed methods consist of three steps. The first step is detection skin, similar to face al-

gorithm detection used in [24], we use YCbCr color method to detect skin regions from regions of candidate faces, that are in fact the outputs of detection stage. Then skin's pixels will be counted, if its count larger than threshold ^ , the region of candidate face will pass to next two steps, otherwise it will be rejected. The next steps are eyes and mouth detection using Haar-Cascading method. Before detecting eyes and mouth, the region of candidate face will be divided into two overlapping parts to ensure the least possible error in eyes and mouth detection. The overall result of this method as the following, see fig. 3.

4. Experiments

4.1. Database

We evaluate detectors and validators on the Face Detection Data Set and Benchmark (FDDB) challenge [29]. This challenging dataset contains images of human faces in multiple poses captured in indoor and outdoor settings. There are 2845 images with a total of 5171 faces contain a wide range of difficulties including occlusions, difficult poses, and low resolution and out-of-focus faces. And for evaluating the performance of face detection algorithms, there are two criteria for quantatitive comparison (Discrete and

IF SKIN_REGION>9 AND (EYES>0 OR MOUTH>0) => It is Face

Regions of candidates faces

Fig. 3. Proposed method diagram

Continuous scores). For the discrete scores, each detection is considered to be positive if its intersection-over-union (IoU) ratio with its one-one matched ground-truth annotation is greater than 0.5. For the more restrictive continuous scores, the true positives are weighted by the IoU scores.

4.2. Evaluation Metrics

In these days, many metrics are utilized for evaluating the performance of the face detection algorithms. The standard approach revolves round the ground truth notion of positive and negative detections. Table 1 shows the confusion matrix. The terms positive and negative reveal the asymmetric condition on detection tasks where one class is the relevant pattern class and another class is the nonrelevant class.

In the case of face detection task, the system has to differentiate between face and non-face. The true positive means the portion of face images to be detected by the system, while the false positive means the portion of non-face images to be detected as faces.

There are two main evaluation plots: the receiver operating characteristics (ROC) curve and

Table 1. Confusion matrix

Ground truth\ Detected Rejected

detection (Positive) (Negative)

Relevant True positive False negative

(TP) (FN)

Good bad! (Type I

error)

Nonrelevant False positive True negative

(FP) (TN)

bad! (Type II error) Good

the precision and recall (PR) curve. The ROC curve examines the relation between the true positive rate and the false positive rate, while the PR curve extracts the relation between detection rate (recall) and the detection precision. The FDDB benchmark uses a modified ROC curve, where instead of false positive rate, it is total number of false positives, so in this study we demonstrate the results using this curve and PR curve. • Precision:

Precision is the fraction of the detected objects that are classified as faces and they are really faces. Precision is additionally known as

[ 73 ]

positive predictive value. It is represented in Eq(4).

TP

Precision = -

TP + FP

Eq(4)

• Recall (Detection Rate)

Recall is the fraction of positive cases that are successfully detected. It is the proportion of all faces that are classified by the algorithm as faces. It is additionally known as sensitivity, hit rate, true positive rate. It is calculated using Eq (5).

Recall = -

TP

Eq(5)

TP + FN

• F-Score

F-Score or F-measure computes the average of the precision and recall, see Eq (6).

^ 2 X Recall X Precision

F - Score =- Eq(6)

Recall + Precision

• Receiver operating characteristics

Receiver operating characteristics (ROC) is a graph used for organizing and visualizing the performance of a system. It is a distinct option for precision — recall curves [30]. The points on the top left of modified FDDB ROC have high TP Rate (recall) and low number of false positives, thus represents smart classifiers, while the points in top right of PR curve have high TP Rate and high Precision.

4.3. Proposed Experiments

To detect faces, we use the Haar-cascading implementation in OpenCV library [32] with «alt» training parameters version of Haar feature with scaleFactor equals 1.3, minNeigh-bors equals 3 and minimum possible object size equals 40x40.

To validate the detected faces that are obtained from the haar cascading detector, we employ a fast detector based on MMOD algorithm [26], which uses Histograms of Oriented Gradient (HOG) features in conjunction with structural SVMs, as made available in the Dlib open-source library [33]. As a result of valida-

tion, we get the confidence scores for the detected faces, then we filter these faces by threshold to face or non-face. We experiment three threshold values {0, -0.5, -1}.

To detect the small faces using haar-cas-cading implementation in OpenCV library, we should determine the minimum possible face size, while in HOG-SVM implementation in Dlib library, the min size of sliding window is 80x80, and it is constant, we can't change it, so to find the small faces using dlib implementation, we should resize the image to fit size of sliding window (40x40). According to this issue we test the Face Detector-Validator system with the three following cases in next section.

Results and Discussion

5.1. Results of Experiment 1

We detect faces using Haar-Cascading OpenCV implementation with MinSize = 40 X 40. Then we feed the detected faces to face validator module that is implemented in dlib. This configuration lead to ignore validating faces smaller than 80 X 80. The fig. 4-6 show the ROC curves for both detection and validation results, and the table 2. shows the evaluation metrics.

We note that when we use validation threshold equals to 0, we got the lowest false positive result, since the precision improved from 92% to 98%, while the recall decreased from 71% to 60%. With regards to processing time, the average validation time equals to 500 ms.

5.2. Results of Experiment 2

We detect faces using Haar-Cascading OpenCV implementation with MinSize = 40 X 40. Then we resize the detected faces to 100 X 100, then feed them to face validator module. The fig. 7-9 show the ROC curves for both detection and validation results, and the table 3 shows the evaluation metrics.

We note that when we use validation threshold equals to 0, we got the lowest false positive result, since the precision improved from 92%

False positive

haar-Cascading opencv, " i rvV J 0 X •> ^ -

HOG-SVM dlib, threshold^-! ---

HOG-SVM dlib, thresh old = -0.5 HOG-SVM dlib, tbreshold=0

Fig. 4. Discrete score ROC, experiment 1

i -

0.9 0.8 0.7

o

£ -a

False positive

haar-Cascading opencv, minW=40J(40 -

hfOG-SUM dlib, thrsshold=-l -

HOG-SVM dlib, thresh old = -0.5 HOG-SVM dlib, thresholds

Fig. 5. Continuous score ROC, experiment 1

Table 2. Evaluation metrics, experiment 1

N (TP+FN) = 5171

Stage TP FP Recall Precision

Detection with 40x40 3672 297 0.71 0.92

+Validation, threshold = -1 3413 70 0.66 0.97

+Validation, threshold = -0.5 3517 92 0.68 0.97

+Validation, threshold = 0 3103 32 0.60 0.98

Fig. 6. PR ROC curve, experiment 1

Fig. 7. Discrete score ROC, experiment 2 Table 3. Evaluation Metrics, Experiment 2

N (TP+FN) = 5171

Stage TP FP Recall Precision F-Score

Detection with 40x40 3672 297 0.71 0.92 0.80

+Validation, threshold = -1 3672 141 0.71 0.96 0.81

+Validation, threshold = -0.5 3620 76 0.70 0.97 0.81

+Validation, threshold = 0 3413 40 0.66 0.98 0.78

Fig. 8. Continuous score ROC, experiment 2

Fig. 9. PR ROC curve, experiment 2

to 98%, while the recall decreased from 71% to 66%. With regards to processing time, the average validation time is similar to average time in Experiment 2.

5.3. Results of Experiment 3: Proposed Method

We detect faces using Haar-Cascading OpenCV implementation with MinSize = 40 x 40. Then

then feed them to proposed face validator module. We tested two values of skin threshold (20%, 40%). The fig. 10-12. show the ROC curves for both detection and validation results, and the table 4 shows the evaluation metrics.

We note that when we use SKIN threshold equals to 40%, we got the lowest false positive result, since the precision improved from 92%

0.9 0.8

0.7 -

41

ra 0.6

False positive

hasr-Cascading opencv, minW=40)(40 -

With validation SKiN>=Z0*)i>, Eyes, Mouths With validation SKIN>=40%, Eyes, Mouths

Fig. 10. Discrete score ROC, experiment 3

0.9 0.8 0.7

41

ra 0.6

False positive haar-Cascading opencv, minW=: 40X40 With validation SKiN>=Z0*fc, Eyes, Mouths With validation SKIN>=40%, Eyes, Mouths

Fig. 11. Continuous score ROC, experiment 3

Table 4. Evaluation metrics, experiment 3

N (TP+FN) = 5171

Stage TP FP Recall Precision F-Score

Detection with 40x40 3672 297 0.71 0.92 0.8

+Proposed method, SKIN threshold >=20% 3155 62 0.61 0.98 0.75

+Proposed method, SKIN threshold >=40% 2948 50 0.57 0.98 0.72

\ 1

г

Г

H

7

л1

0 0.05 0.1 0.15 0.2 0.2S 0.3 0.35 0.4 0.45 0,5 0.55 0.6 0.65 0.7 0,75 0.8 0.85 0.9 0.9S I Precision

haar-Caseading openev, in rv.V . " " X ■'■" -

With validation SKIfJ>=20%, Eyes, Mouths With validation SKIN>=40%, Eyes, Mouths

Fig. 12. PR ROC curve, experiment 3

Table 5. Best results from all experiments according to FP

Exp System Schema TP FP Recall Precision F-Score

- Haar-Cascading Detection, minW= 40x40 3672 297 0.71 0.92 0.80

1 + HOG-SVM Validator, 9 = 0 3103 32 0.60 0.98 0.74

2 + HOG-SVM Validator, (resized), 9 = 0 3413 40 0.66 0.98 0.78

3 + SKIN-EYES-MOUTH, 9 = 40% (ours) 2948 50 0.57 0.98 0.72

Fig. 13 Examples of our method. From top to bottom, 1st row: detected faces are validated as faces (True Positive); 2nd row: detected faces are validated as non-faces (False Negative); 3rd row: detected faces are validated as non-faces, but they are faces (True Negative), so recall decreased after validation step.

to 98%, while the recall decreased from 71% to 57%. With regards to processing time, the average validation time equals to 2 ms.

We conducted 3 experiments with three different HOG-SVM validation threshold values and different SKIN threshold values (ours). According to the number of FP, table 5 contains the best results. We note that our method got similar results in precision, but not better that HOG-SVM validator with regard to recall. The biggest advantage of our method is that it is very fast in comparing with HOG-SVM, it is about 2 ms only, while using HOG-SVM validator, the processing time is about 500 ms. Fig. 13 shows some examples of our method.

Conclusion

In this study, we review the most important problem in the face detection systems, it is the presence of false positives or non-face regions, which can be mitigated by adding a validation stage after the detection stage. This stage will reduce the number of FP and this will increase precision but the validator may reject some true positives or corrected faces and this will decrease recall. Haar-Cascading OpenCV is chosen as a face detector and HOG-SVM is chosen as a validator, and we proposed method for validation based on skin detection then eyes, mouth detection using haar-cascading OpenCV. The experiments show similar results in precision (98%). The biggest advantage of our method is that it is very fast in comparing with HOG-SVM, it is about 2 ms only, while using dlib validator, the processing time is about 500ms. In the future, we will try other classifiers in validation stage, especially the generative ones, such as variational autoencoder (VAE).

References

1. Zhang C., Z. Zhang. A survey of recent advances in face

detection. Microsoft Research, Technical Report 2010,

no. MSR-TR-2010-66, 1 p.

2. Viola P., Jones M. J. Robust real-time face detection.

Int J Comp Vision, 2004, vol. 57, no. 2, pp. 137-154.

3. Yang H., Wang X. Cascade classifier for face detection. Journal of Algorithms & Computational Technology, 2016, vol. 10, no. 3, pp. 187-197.

4. Mohan A. R., Sudha N. Fast face detection using boosted eigenfaces, IEEE Symposium on In-dustrial Electronics & Applications, 2009, vol. 2, pp. 1002-1006.

5. Chen D., Ren S., Wei Y., Cao X., Sun J. Joint cascade face detection and alignment, In: Proc. Eur. Conf. Com-put. Vis. (ECCV), 2014, pp. 109-122.

6. Zhu X., Ramanan D.. Face detection, pose estimation, and landmark localization in the wild, Computer Vision and Pattern Recognition (CVPR), 2012, pp. 2879-2886.

7. Yan J., Zhang X., Lei Z., Li S. Z.. Face detection by structural models, 2014, Image and Vision Computing, vol. 32, no. 10, pp. 790-799.

8. Mathias M., Benenson R., Pedersoli M., Van Gool L. Face detection without bells and whistles, Lecture Notes in Computer Science, 2014, vol. 8692, pp. 720-735.

9. Alafif T., Hailat Z., Aslan M., Chen X. On detecting partially occluded faces with pose variations, in pre-ceedings of the 14th Inter- national Symposium on Pervasive Systems, Algo-rithms, and Networks (I-SPAN). IEEE Computer Society Conference Publishing Services (CPS), 2017.

10. Farfade S. S., Saberian M. J., Li L. Multi-view Face Detection Using Deep Convolutional Neu-ral Networks. ICMR '15 Proceedings of the 5th ACM on International Conference on Multime-dia Retrieval, 2015, vol 2, pp. 643-650.

11. Jiang H., Learned-Miller E. Face Detection with the Faster R-CNN. ArXiv e-prints: 1606.03473. 2016.

12. Sarkar S., Patel V. M., Chellappa R. Deep feature-based face detection on mobile devices. ArXiv e-prints, abs/1602.04868, 2016.

13. Ranjan R., Patel V. M., Chellappa R. A deep pyramid deformable part model for face de-tection, In Biometrics Theory, Applications and Systems (BTAS), 2015, pp. 1-8.

14. Yang S., Luo P., Loy C. C., Tang X. From facial parts responses to face detection: A deep learning approach. 2015, pp. 3676-3684.

15. Campadelli P., Lanzarotti R., Lipori G. Face localization in color images with complex back-ground, Proceedings ofthe IEEE International Workshop on Computer Architecture for Ma-chine Perception, 2005, pp. 243-248.

16. Rodriguez Y. Face Detection and Verification using Local Binary Patterns. PhD thesis, Ecole Polytechnique Federale de Lausanne, 2006, no. 3681, pp. 64-66.

17. Nanni L., Lumini A., Brahnam Sh. Ensemble of Face/ Eye Detectors For Accurate Automatic Face Detection, International Journal of Latest Research in Science and Technology, 2015, vol. 4, no. 3, pp. 8-18.

18. BioID Face Database — FaceDB. Available at: https:// www.bioid.com/About/BioID-Face-Database.

19. Nanni L., Lumini A. Combining Face and Eye Detectors in a High- Performance Face-Detection System, 2012, vol. 19, no. 4, 3 p.

20. Tan X., Triggs B. Enhanced Local Texture Feature Sets for Face Recognition Under Difficult Lighting Conditions, in Analysis and Modelling of Faces and Gestures, Springer, 2007, vol. 4778, pp. 168-182.

21. Ojansivu V., Heikkila J. Blur Insensitive Texture Classification Using Local Phase Quantiza-tion, Proc. Int'l Conf. Image and Signal Processing (ICISP), 2008, vol. 5099, pp. 236-243.

22. Prinosil J., Vlach J. Face detection in image with complex background, IFIP — The International Federation for Information Processing, 2007, vol. 245, pp. 533-544.

23. Nefian A. Georgia Tech face database. Available at: http://www.anefian.com/research/face_reco. htm.

24. Hafizur Md., Afrin J. Human Face Detection in Color Images with Complex Background us-ing Triangular Approach, Global Journal of Computer Science and Technology Graphics & Vi-sion, 2013, vol. 13, no. 4. 2 p.

25. Alizadeh F., Nalousi S., Savari C. Face Detection in Color Images using Color Features of Skin, 2011, vol. 5, no. 4, pp. 368-369.

26. King D. E. Max-Margin Object Detection. in Computer Vision and Pattern Recognition, 2015, arXiv: 1502.00046.

27. Joachims T., Finley T., Yu C. J. Cutting-plane training of structural svms. Machine Learn-ing, 2009, vol. 77, no. 1, pp. 27-59.

28. Teo C. H., Vishwanthan S., Smola A. J., Le Q. V. Bundle methods for regularized risk minimization. 2010, vol. 11, pp. 311-365.

29. Jain V., Learned-Miller E. Fddb: A benchmark for face detection in unconstrained settings. Technical Report UM-CS-2010-009, University of Massachusetts, Am-herst, 2010.

30. Fawcett T. An introduction to ROC analysis. Pattern Recognition Letters, 2006, vol. 27, no. 8, pp. 861-874.

31. Bradski G. The opencv library, Dr Dobb's Journal of Software Tools, Available at: http://opencv.org, Status: Online; accessed September 10, 2017.

32. King D. E. Dlib-ml: A machine learning toolkit. The Journal of Machine Learning Research, 10:1755-1758. Available at: http://dlib.net/, Status: Online; accessed September 10, 2017.

Б. Х. Зено, аспирант Университета ИТМО, г. Санкт-Петербург, Россия, bzeno@corp.ifmo.ru

Валидация лиц с помощью обнаружения глаз, рта и цвета кожи

В реальных изображениях лиц большие визуальные вариации, такие как различия в выражении лица, его позиции, разный масштаб и освещение, наличие преград перед лицами и другие, вызывают трудности при отличии лица от фона изображения. В результате возникают области изображений, которые неправильно распознаются как лица (ошибки первого рода), тогда как эффективность алгоритмов распознавания лиц характеризуется низким числом таких ошибок, высокой скоростью обнаружения лиц и высокой скоростью обработки изображений. Таким образом, чтобы уменьшить число описанных областей, вместо того, чтобы разрабатывать точный алгоритм обнаружения лиц, который требует больших временных затрат на работу, после первичного обнаружения лиц будет добавлен этап их валидации. В настоящей статье предлагается новый быстрый метод валидации лиц. Он состоит из двух этапов: первый — определение кожи с использованием метода анализа значений YCbCr-цвета; второй шаг — обнаружение глаз и рта с использованием каскадного подхода. На втором этапе область лица-кандидата делится на две перекрывающиеся области, одна для модели обнаружения глаз, а другая для модели обнаружения рта. Алгоритм обнаружения лиц, основанный на методе опорных векторов, использовался для сравнения с предлагаемым решением. Результаты экспериментов на наборе данных FDDB показали лучшую производительность предлагаемого метода (время валидации 2 мс по сравнению с 500 мс у алгоритма, основанного на методе опорных векторов) при схожем числе ошибок первого рода.

Ключевые слова: распознавание лиц, валидация, каскадный подход, метод опорных векторов. About authors: B. H. Zeno, Postgraduate

For citation: Zeno B. H. Face validation using skin, eyes and mouth detection. Prikladnaya Informatika — Journal of Applied Informatics, 2018, vol. 13, no. 1 (73), pp. 69-81.

yAK 004.89

Learning disentangled representation of identity and head pose using

generative adversarial networks

Bassel H. Zeno (ITMO University, St. Petersburg, Russia) Supervisor - D.Sc., Professor Yuri N. Matveev (ITMO University, St. Petersburg, Russia)

The research were carried out at the expense of start-up financing of the ITMO University as part of the research project No. 618278 "Synthesis of Emotional Speech Based on Generative Adversarial Networks".

Benefiting from the convolutional neural networks trained on large-scale face databases [1, 2], the performance of face recognition systems has been significantly improved over the past few years. However, pose variations are still the bottleneck for many real-world face recognition scenarios.

Existing methods that address pose variations can be divided into two categories. One category tries to adopt hand-crafted or learned pose-invariant features [1, 2] while the other resorts to synthesis techniques to synthesize face images of a specific person. For example, TP-GAN [3] and FF-GAN [4] attempt to recover a frontal view image from any face image with large pose. DR-GAN [5] can change the pose of an input face image. However, these methods can only manipulate limited poses of a face image. In additions they also require full annotation of attributes to train the models. Some of these GAN-based methods [4, 5, 6] usually have a single-pathway design: an encoder-decoder network is followed by a discriminator network. While the others [3] have two-pathways design. The encoder (E) maps input images into a latent space (Z), and then fed into the decoder (G) with a pose vector to generate novel views.

In practice, in order to learn a meaningful representation of the training dataset without additional constraints, many different GAN frameworks were proposed. They learn interpretable and meaningful latent representations in an unsupervised setting, such as InfoGAN, BiGAN, or in supervised setting. Despite all the effort in this area, these approaches ignore one of the most fundamental principles of face image generation, which is the disentanglement of the face's identity and pose.

Learning disentangled identity and pose codes is a challenging task since 1) computers need to "imagine" what a given object would look like after a 3D rotation is applied; 2) the multi-view generations should preserve the same "identity"; and 3) the developed algorithms for solving this class of problems train GAN in a supervised fashion, or in its conditional setting.

Despite all the effort in this area, the field still lacks of a coherent framework for unsupervised disentangled pose and identity representations learning. From this consideration, in this article, we propose an end-to-end framework to learn a pair of disentangled identity and pose codes for a given dataset.

Our framework consists of a single generator, in contrast to [3]. The generator has several upsampling, convolutional layers, and a set of residual blocks. The input of the generator is an identity code, while the desired pose code is fed into a multilayer perceptron (MLP) in order to generate parameters of AdaIn layers (Adaptive Instance Normalization) which they were injected in each residual block of generator.

References

1. D. Chen, X. Cao, F. Wen, and J. Sun. Blessing of dimensionality: High-dimensional feature and its efficient compression for face verification. In CVPR, 2013.

2. F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.

3. R. Huang, S. Zhang, T. Li, and R. He. Beyond face rotation: Global and local perception gan for photorealistic and identity preserving frontal view synthesis. arXiv preprint arXiv:1704.04086, 2017.

4. X. Yin, X. Yu, K. Sohn, X. Liu, and M. Chandraker. Towards large-pose face frontalization in the wild. arXiv preprint arXiv:1704.06244, 2017.

5. L. Tran, X. Yin, and X. Liu. Disentangled representation learning gan for pose-invariant face recognition. In CVPR, volume 4, page 7, 2017.

6. J. Bao, D. Chen, F. Wen, H. Li, G. Hua. Towards Open-Set Identity Preserving Face Synthesis 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018).

УДК 004.89

УПРАВЛЯЕМЫЙ СИНТЕЗ ИЗОБРАЖЕНИЙ ЛИЦ С ИСПОЛЬЗОВАНИЕМ ГЕНЕРАТИВНЫХ СОСТЯЗАТЕЛЬНЫХ НЕЙРОННЫХ СЕТЕЙ Зено Б. (Университет ИТМО) Научный руководитель - д.т.н. Матвеев Ю.Н.

(Университет ИТМО)

В этой работе предлагается метод управляемого синтеза для автоматической генерации новых изображений лиц с новыми позами и эмоциями путем объединения информации об идентичности изображения лица, с информацией о геометрии изображения другого лица.

Генерация новых реалистичных изображений лица из одного статического изображения путем манипуляций с позой головы, выражением и чертами лица является сложной задачей по двум причинам. Во-первых, результирующее изображение лица имеет низкое качество из-за проблем с сохранением идентичности исходного лица и большим различием в позах головы. Это требует наличия предобученного представления соответствующего лица для манипуляцией с ним и способа передачи требуемого представления (например, выражения лица или позы головы). Во-вторых, имеется проблема сохранения оттенка кожи из-за отсутствия в процессе обучения изображений истинного лица. Традиционно генерация изображения лица по одному изображению выполняется путем подгонки 3БММ, а затем изменения расчетных параметров. Учитывая, что метод 3БММ ограничен компонентами соответствующей изменяемой модели, которая может не отражать полный диапазон требуемых выражений/деформаций и деталей более высокого уровня, предложен 2Б метод коробления. Существует множество публикаций по подходам с контролем/самоконтролем для генерации новых изображений лиц. В подходах с контролем для управления генерацией заданного лица обучается модель факторов вариаций (например, освещение, поза и т.д.) на основе обучающего набора данных, с использованием размеченных изображений лиц с заданными позами головы, выражением лица, или биометрическими точками. Недостатками процедуры разметки обучающего набора данных могут большая трудоемкость и субъективные критериями разметки (например, при определении эмоций на лице).

В данной работе предлагается метод управляемого синтеза для автоматической генерации новых изображений лиц путем объединения информации об идентичности, полученной из исходного изображения лица, с информацией о геометрии, извлеченной из целевого изображения лица. В качестве информации о геометрии лица предлагается использовать набор из 68 биометрических точек, которые определяют позу, выражение лица, положение и ширину некоторых черт лица, таких как глаза, рот, нос и подбородок.

Предлагаемый метод управляемого синтеза изображения лица имеет много практических применений для расширения наборов обучающих данных, создании систем распознавания и верификации лиц. Кроме того, его можно использовать для упрощения редактирования изображений лиц, поскольку он позволяет настраивать такие черты лица, как лоб и высота подбородка, линия подбородка и ширина лица.

Зено Бассель

Год рождения: 1986

Университет ИТМО, факультет информационных технологий и программирования,

аспирант

Направление подготовки: 09.06.01 — Информатика и вычислительная техника

e-mail: basilzeno@gmail.com

Матвеев Юрий Николаевич

Год рождения: 1955

Университет ИТМО, факультет информационных технологий и программирования,

Д т.н.

e-mail matveev@speechpro.com UDK 004.89

FACE ROTATION USING GENERATIVE ADVERSARIAL NETWORKS

Bassel H. Zeno Supervisor - D.Sc., Professor Yuri N. Matveev

Работа выполнена в рамках темы НИР № 618278 «Синтез моциональной речи на основе генеративных состязательных сетей».

In this work we propose new generative adversarial framework for face rotation based on disentangled representation learning. It consists of five parts: identity encoder, pose encoder, discriminator and classifier. Each input face image is decoded into two embedding vectors, the identity vector and the pose vector. Then by concatenating the identity vector with another target pose vector, the generator synthesis new face image with target view. The model learns in unsupervised fashion on Multi-PIE dataset. Keywords: generative Adversarial Network, convolutional neural networks, disentangled Representation.

The performance of face recognition systems has been significantly improved over the past few years, due to the development of graphics card technology, on the one hand, and more importantly, due to the significant evolution of convolutional neural networks [1, 2]. However, pose variations are still the bottleneck for many real-world face recognition scenarios.

Existing methods that address pose variations can be divided into two categories. One category tries to adopt hand-crafted or learned pose-invariant features [1, 2] while the other resorts to synthesis techniques to synthesize face images of a specific person. For example, TP-GAN [3] and FF-GAN [4] attempt to recover a frontal view image from any face image with large pose. DR-GAN [5] can change the pose of an input face image. However, these methods can only manipulate limited poses of a face image. In additions they also require full annotation of attributes to train the models. Some of these GAN-based methods [4-6] usually have a single-pathway design: an encoder-decoder network is followed by a discriminator network. While the others [3, 7] have two-pathways design. The encoder (E) maps input images into a latent space (Z), and then fed into the decoder (G) with a pose vector to generate novel views.

In practice, in order to learn a meaningful representation of the training dataset without additional constraints, many different GAN frameworks were proposed. They learn interpretable and meaningful latent representations in an unsupervised setting, such as InfoGAN [8], BiGAN [9], or in supervised setting [10]. Despite all the effort in this area, these approaches ignore one of the most fundamental principles of face image generation, which is the disentanglement of the face's identity and pose.

Learning disentangled identity and pose codes is a challenging task since 1) computers need to "imagine" what a given object would look like after a 3D rotation is applied; 2) the multi-view generations should preserve the same "identity"; and 3) the developed algorithms for solving this class of problems train GAN in a supervised fashion, or in its conditional setting.

Despite all the effort in this area, the field still lacks of a coherent framework for unsupervised disentangled pose and identity representations learning. From this consideration, in this article, we propose an end-to-end framework to learn a pair of disentangled identity and pose codes for a given dataset.

Our framework consists of a single generator, in contrast to [3, 7]. The generator has several upsampling, convolutional layers, and a set of residual blocks. The input of the generator is an identity code, while the desired pose code is fed into a multilayer perceptron (MLP) in order to generate parameters of AdaIn layers (Adaptive Instance Normalization) which they were injected in each residual block of generator.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.