Автоматическое чтение по губам с помощью LIpsID-признаков тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат наук Главач Мирослав

  • Главач Мирослав
  • кандидат науккандидат наук
  • 2019, ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики»
  • Специальность ВАК РФ05.13.17
  • Количество страниц 156
Главач Мирослав. Автоматическое чтение по губам с помощью LIpsID-признаков: дис. кандидат наук: 05.13.17 - Теоретические основы информатики. ФГАОУ ВО «Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики». 2019. 156 с.

Оглавление диссертации кандидат наук Главач Мирослав

Содержание

Содержание

Реферат

Synopsis

I Introduction

1. Introduction

2. Lipreading

2.1 Human lipreading

2.2 Automated lipreading

2.2.1 Visual Features Extraction

2.2.2 Extracted Features Processing

3. Dissertation Goals

3.1 Visual Speech Features Representation

3.2 New feature extraction method development

3.3 DNN Based Visual Speech Recognition

II Methodology

4. Statistical Models

4.1 Statistical Models of Shape

4.1.1 Landmarks

4.1.2 Aligning the Training Set

4.1.3 Modelling the Shape Variance

4.1.4 Model Generation and Constraints

4.1.5 Fitting the Model to New Points

4.2 Statistical Model of Appearance

4.2.1 Statistical Model of Texture

4.2.2 Combined Appearance Model

4.2.3 Image Warping

4.3 Active Shape Model

4.3.1 Modelling Local Structure

4.4 Active Appearance Model

4.4.1 AAM Search

4.4.2 Learning the Relation between 5c and SI

4.4.3 Iterative Model Refinement

5. Neural Networks

5.1 Artificial Neuron

5.1.1 Activation Functions

5.2 Neural Network Topology

5.2.1 Fully Connected Layer

5.2.2 Convolutional Layer

5.2.3 Response Normalisation Layers

5.2.4 Pooling Layers

5.2.5 Recurrent Layers

5.2.6 Softmax Layer

5.3 Training the Network

5.3.1 Cost Functions

5.3.2 Optimisation Algorithms

5.4 Deep Learning Frameworks

5.4.1 Caffe

5.4.2 Theano

5.4.3 Tensorflow

5.4.4 Torch7

5.4.5 CNTK

6. State-of-the-art methods for feature extraction and visual speech recognition

6.1 State-of-the-Art Methods for feature extraction

6.1.1 Chehra

6.1.2 Ensemble of Regression Trees

6.1.3 Improving Visual Features for Lip-reading

6.1.4 Per-speaker z-score Normalisation

6.1.5 VGG

6.1.6 ResNet

6.2 Visual Speech Recognition

6.2.1 View Independent Computer Lip-reading

6.2.2 Adaptive Multimodal Fusion by Uncertainty Compensation

6.2.3 LSTM Lipreading

6.2.4 Lip Reading in the Wild

6.2.5 LipNet

6.2.6 WLAS network

6.2.7 Transformer network

7. Datasets

7.1 Landmark and Object Detection Datasets

7.1.1 Helen

7.1.2 LFPW

7.1.3 ILSVRC2012

7.2 Audio-visual Speech Recognition Datasets

7.2.1 LiLIR

7.2.2 OuluVS

7.2.3 AV-TIMIT

7.2.4 TCD-TIMIT

7.2.5 AVICAR

7.2.6 GRID

7.2.7 LRW

7.2.8 LRS

IIIContribution to the state-of-the-art

8. Visual speech features analysis

8.1 Geometric features

8.2 Appearance features

8.3 Deep features

8.4 Feature use analysis

8.4.1 Height and width

8.4.2 Mutual information

8.4.3 Image quality

8.4.4 Appearance of tongue and teeth

8.4.5 DCT features

8.5 UWB-HSCAVC dataset extension

9. LipsID

9.1 Development of new deep visual features

9.2 LipsID using 3D convolutions

9.3 LipsID using ArcFace

9.4 Final form of LipsID features

10.Lipreading Experiments

10.1 The problem of feature normalisation

10.2 LipNet with LipsID

10.2.1 Results

10.3 AVSR with LipsID

10.3.1 Testing with TCD-TIMIT dataset

IVConclusion

11.Conclusio n

11.1 Thesis summary

11.2 Dissertation goals

11.2.1 Visual Speech Features Representation

11.2.2 New Feature Extraction Method Development

11.2.3 DNN Based Visual Speech Recognition

11.3 Future work

Список рисунков

Список таблиц

Список литературы

Публикации автора по теме диссертации

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматическое чтение по губам с помощью LIpsID-признаков»

РЕФЕРАТ

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертационной работы связана с исследовательским проектом, который был начат во время обучения в магистратуре. Проект был направлен на помощь людям с ограниченными возможностями здоровья. Инвалиды без голосовых связок воспроизводят звук на специальном устройстве Electrolarynx, которое помогает им воспроизводить речь, генерируя базовую частоту в 400 Гц. Одновременно человек использует оставшуюся часть своего голосового аппарата для создания слышимой речи. Этот процесс сильно зависит от способности говорящего произносить слова. Другие люди могут испытывать трудности с пониманием людей с ограниченными возможностями, поскольку речь основана на одной основной частоте. Чтобы помочь людям с ограниченными возможностями, сделана попытка разработать устройство для распознавания их аудиовизуальной речи. Задача визуального распознавания речи вызвана способностью человека распознавать произнесенные слова без наличия звука. Для имитации этой способности были разработаны различные методы. Задача нетривиальна, так как большая часть информации о речи кодируется в аудиосигнале. Человек, читающий речь по губам, должен знать данный естественный язык, чтобы распознавать произносимые слова. Методы, используемые для визуального распознавания речи, пока не дают выдающихся результатов, поэтому данное направление исследований актуально. В дальнейшем анализе области визуального распознавания речи были также обнаружены недостатки методов, используемых для чтения по губам.

Степень разработки проблемы. Тема автоматического визуального распознавания речи довольно популярна в мире. Современные методы в основном используют глубокие нейронные сети. Обзор методов включен в диссертацию. Подходы в целом можно разделить на две группы: 1) используются только визуальные данные (LipNet (1)), 2) используются аудиовизуальные данные (WLAS, AVSR network (2; 3)).

Объектом исследования является разработка метода адаптации современных систем чтения речи по губам на основе распознавания личности говорящего.

Целью данного исследования является повышение точности системы считывания речи с губ. Исследование соответствует паспорту специальности 05.13.17, в частности, пунктам 5, 6, 7.

Задачи исследования:

- анализ современных визуальных признаков речи, используемых для автоматического чтения по губам;

- анализ наборов данных, подходящих для задачи визуального распознавания речи;

- разработка нового набора визуальных признаков, пригодных для добавления в нейро-сетевые методы для распознавания речи по губам;

- экспериментальное исследование предложенных признаков с использованием существующих систем для проверки улучшения скорости распознавания визуальной речи.

Научная новизна работы заключается в улучшении текущих результатов в области автоматического чтения речи по губам диктора. Это достигается путем введения дополнительных визуальных признаков, основанных на распознавании личности диктора.

На защиту выносятся:

- Новые визуальные признаки LipsID и метод их автоматического извлечения.

- Повышение скорости распознавания речи по губам за счет использования признаков LipsID.

Диссеминация результатов представлена публикациями и докладами на международных научных конференциях, семинарах и совещаниях, в том числе:

- 1st International Conference on Interactive Collaborative Robotics (ICR), 2016, Будапешт, Венгрия

- 19th International Conference on Speech and Computer (SPECOM), 2017, Хатфилд, Великобритания

- 20th International Conference on Speech and Computer (SPECOM), 2018, Лейпциг, Германия

- Студенческие научные конференции в Университете Западной Богемии, 2012-2018, Пльзень, Чехия

Практическая значимость основных результатов подтверждается в следующих проектах: Assistive Mobile Information Robot (AMIR) (совместный проект Западночешского университета и СПИИРАН, Санкт-Петербург) и Многомодальное человеко-машинное взаимодействие (исследовательский проект Западночешского университета).

Публикации. На эту тему были опубликованы 3 статьи, которые проиндексированы в SCOPUS, а также еще 7 статей, связанных с этой работой, были опубликованы и представлены в молодежных конференциях и изданиях

Личный вклад автора состоит в разработке метода извлечения визуальных признаков LipsID и внедрение их в современные системы чтения речи по губам диктора.

Структура работы. Диссертация состоит из четырех частей (первая часть - введение, вторая часть - методология, третья часть - вклад, четвертая часть - заключение), приложения и списка использованной литературы (содержит 100 источников). Содержит 95 страниц текста.

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Заключение диссертации по теме «Теоретические основы информатики», Главач Мирослав

Заключение. В ходе выполнения диссертационной работы получены следующие основные результаты:

- выполнен обзор визуальных признаков, используемых в настоящее время для чтения речи по губам, а также оценка их применимости для обучения нейронных сетей;

- расширен корпус визуальных данных UWB-HSCAVC новым набором ключевых точек;

- разработан полуавтоматический метод создания набора данных;

- разработан новый набор визуальных признаков LipsID и метод для их извлечения.

- выполнено внедрение признаков LipsID в современные системы распознавания речи по губам и их экспериментальное исследование.

Список литературы диссертационного исследования кандидат наук Главач Мирослав, 2019 год

Список публикаций

Публикации индексируемых в SCOPUS:

Ivan Gruber, Miroslav Hlavac, Marek Hruz, Milos Zelezny, and Alexey Karpov. An analysis of visual faces datasets. In Lecture Notes in Computer Science . Springer, 2016.

Miroslav Hlavac, Ivan Gruber, Milos Zelezny, and Alexey Karpov. Semi-automatic facial keypoint dataset creation. In Lecture Notes in Computer Science . Springer, 2017.

Miroslav Hlavac, Ivan Gruber, Milos Zelezny, and Alexey Karpov. LipsID using 3D convolutional neural networks. In Lecture Notes in Computer Science . Springer, 2018.

Прочие публикации по теме диссертации:

Miroslav Hlavac. Detection of lips in video sequences. Master Thesis. 2012. Miroslav Hlavac. Detekce rtu ve videozaznamech. SVK FAV. 2012. Miroslav Hlavac. Lips tracking using AAM. SVK FAV. 2013.

Miroslav Hlavac. Sledovani rtu v realnem case pomoci aktivnich kontur. SVK FAV. 2014. Miroslav Hlavac. Lips landmark detection using CNN. SVK FAV. 2016. Miroslav Hlavac. LipsID. SVK FAV. 2018.

Miroslav Hlavac and Alexey Karpov. LipsID detection with CNN. Almanac of Scientific Works. ITMO University. 2018.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.