Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Балакшин, Павел Валерьевич

  • Балакшин, Павел Валерьевич
  • кандидат науккандидат наук
  • 2014, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 127
Балакшин, Павел Валерьевич. Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2014. 127 с.

Оглавление диссертации кандидат наук Балакшин, Павел Валерьевич

Оглавление

Введение

1 Анализ алгоритмов и программных средств распознавания речи

1.1 Развитие методов и алгоритмов распознавания

1.2 Наблюдаемый марковский процесс

1.3 Скрытая марковская модель (СММ)

1.4 Типы скрытых марковских моделей, применяемые в системах распознавания речи

1.5 Общая структура системы распознавания речи

1.6 Анализ существующих программных средств

1.6.1 Средства речевого ввода текста

1.6.2 Средства разработки систем распознавания речи

1.7 Три основные задачи при использовании СММ в распознавании речи

1.8 Основные показатели эффективности систем распознавания речи

и современные научные проблемы

1.9 Выводы

2 Применение скрытых марковских моделей в системах распознавания речи

2.1 Алгоритмы точного вычисления вероятности появления последовательности наблюдений

2.2 Алгоритмы поиска оптимальной последовательности состояний

2.3 Алгоритмы подстройки параметров модели

2.4 Сравнение трудоёмкости алгоритмов

2.5 Моделирование длительности состояний

2.6 Модифицированный алгоритм Витерби

2.7 Сравнения алгоритмов и критерии эффективности распознавания речи

2.8 Выводы

3 Использование особенностей речевого словаря

3.1 Классификация речевых словарей

3.2 Предметная область и размер её словаря

3.3 Особенности использования речевого словаря в работе телефонных служб поддержки клиентов

3.4 Построение системы распознавания речи

3.5 Особенности вычисления и применения перплексии

3.6 Выводы

4 Результаты экспериментальных исследований

4.1 Реализованные программные модули

4.2 Экспериментальные оценки

4.3 Определение причины звонка

4.4 Основные метрики для оценки эффективности распознавания

речи в телефонных службах поддержки

4.5 Особенности внедрения и тестирования

4.6 Выводы

Заключение

Список литературы

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов»

Введение

В связи с бурным ростом вычислительной техники и информационных технологий на первый план стали выходить вопросы повышения эффективности процессов обработки данных и знаний в вычислительных машинах и вопросы взаимодействия человека с компьютерами и компьютеризированными устройствами. Сегодня использование речевых технологий в прикладных программах в качестве дополнительного или даже отдельного средства взаимодействия человека с вычислительным устройством становится всё более частым. Данный процесс имеет достаточно обоснованный и объективный характер, обусловленный тремя причинами [36].

1. Мировая тенденция «очеловечивания» компьютера находит своё отражение и в развитии речевых средств взаимодействия. В результате ученые и специалисты стремятся создавать интерфейсы наиболее естественные и удобные для конечного пользователя.

2. Стремительное уменьшение размеров современных средств управления и связи требует принципиально новых методов и средств взаимодействия пользователя с устройствами данного типа. Например, для современных технологий довольно легко создать небольшой мобильный телефон размером с авторучку, но стандартный механический набор номера на таком устройстве будет вызывать значительные неудобства. Голосовой набор номера и авторизация в этом случае являются очевидным и оптимальным решением.

3. Для большого круга пользователей речевой способ взаимодействия с вычислительными устройствами является единственно возможным в силу

ограниченности их физических возможностей (люди с нарушениями опорно-двигательного аппарата, ослабленным зрением и т. д) или специфики профессии.

Становится очевидным, что исследование, развитие и применение распознавания речи — это большая, актуальная и перспективная научно-техническая задача.

Дополнительным подтверждением актуальности являются следующие факты:

1. Активная деятельность и развитие множества научно-исследовательских центров, в том числе:

• Массачусетский технологический университет,

• Стэнфордский университет,

• Исследовательский центр речевых технологий ЮМ,

• Орегонский институт науки и технологий,

• Центр исследований в области речевых технологий при университете Эдинбурга,

• Центр речевых технологий,

• Лаборатория проблем теоретической кибернетики (университет МГУ им. М. В. Ломоносова),

• Лаборатория речевых и многомодальных интерфейсов (Санкт-Петербургский институт информатики и автоматизации РАН),

• Вычислительный центр им. А. А. Дородницына.

2. Публикации в международных журналах («Speech and Audio Processing» и другие).

3. Научно-технические конференции, среди которых выделяются:

• Interspeech — крупнейшая ежегодная конференция (1993-2014 гг.),

• SpeCom (Speech & Computer) (1996-2014 гг.),

• Диалог (1995-2014 гг.).

4. Различные программно-технические разработки:

• Dragon Naturally Speaking,

• IBM Via Voice,

• Встроенное речевое управление в ОС Windows,

• Речевой поиск Google.

Фактические исследования начались в середине XX века. Тогда учеными были предложены первые модели, позволяющие распознавать речь. Однако базовые принципы алгоритмов распознавания речи были сформулированы в конце 70-х годов прошлого столетия Лоуренсом Рабинером (Rabiner L. R.) [46, 52, 53] и Рональдом Шафером (Schafer R. W.) [110] в книге «Цифровая обработка речевых сигналов» [114], которая в настоящее время является не только классикой данной области научных знаний, но и отправной точкой для подавляющего большинства исследователей.

Большой вклад в развитие исследований по распознаванию речи внесли зарубежные учёные Lea W.A. [105], Pierce J.R., Baum L.E. [5—7], Fant G., Viterbi A. J. [70], Bakis R. [3], Juang B. H. [44, 53], Gold В., Jelinek F. [43, 94], Welch P.D., Vaseghi S.V., Flanagan J.L., Tebelskis J. [66], Oppenheim A.V. и отечественные специалисты Мясников JI. Л., Винцюк Т. К. [90], Сапожков М. А., Сорокин В.Н., Галунов В. И., Леднов В. А., Матюшкин Б. Д., Поляк M. Н., Гольденберг Л. М., Мазуренко И. Л. [77, 101, 102], Ронжин А. Л. [115], Аграновский A.B., Хитров М.В. [125, 126], Чучупал В.Я. и другие.

Выделим наиболее перспективные области применения и дальнейшего развития автоматического распознавания речи [13, 81, 98]:

• управление голосом через устные команды различными процессами и машинами без помощи других управляющих средств или в комбинации с ними;

• идентификация и верификация личности по голосу;

• сжатие речи для передачи её по более простым и экономичным узкополосным каналам связи;

• установление прямой речевой связи с вычислительными машинами специального назначения или с поисково-информационными системами, которые служат для снабжения пользователей различной информацией (на-

пример, системы глобального позиционирования);

• голосовое управление компьютерными играми или активностью в социальных сетях;

• автоматический синхронный перевод с одного языка на другой;

• создание устройств для понимания устной речи людей с ослабленным слухом и чтения книг людьми с ослабленным зрением;

• стенография медицинских операций;

• применение распознавания речи в качестве дополнительного источника для анализа работы телефонных служб поддержки клиентов. Предметом исследований являются методы и алгоритмы распознавания

речи, то есть область, являющаяся частью фундаментальной области искусственного интеллекта и распознавания образов.

Объектом исследований являются алгоритмы и модели распознавания речи.

Цель диссертационной работы — повышение точности распознавания речи за счёт создания модифицированного алгоритма распознавания речи на основе скрытых марковских моделей и его программной реализации для применения в работе телефонных служб поддержки клиентов.

Для достижения указанной цели были поставлены и решены следующие задачи:

1. Анализ современных алгоритмов и программных средств автоматического распознавания речи, выявление существующих научных проблем.

2. Совершенствование алгоритмов распознавания речи, основанных на скрытых марковских моделях, за счет:

• использования дополнительной информации о длительности состояний;

• применения различных критериев поиска оптимальной последовательности состояний.

3. Определение необходимого размера словаря для конкретной предметной области телефонной службы поддержки клиентов.

4. Разработка системы распознавания речи, использующей:

• модифицированный алгоритма Витерби.

• ограниченный речевой словарь с возможностью модификации.

• перплексию из трёх слов с возможностью модификации.

5. Исследование разработанного алгоритма и системы распознавания речи с целью определения их эффективности и особенностей внедрения. Научная новизна работы заключается в том, что в ходе выполнения работы получены следующие новые научные результаты:

1. Получен модифицированный алгоритм Витерби, обеспечивающий повышение точности соответствия речевому сигналу за счёт введения дополнительной информации о длительности состояний модели.

2. Экспериментально получен размер минимально достаточного словаря четырёх несвязанных между собой предметных областей, который составляет 2500 слов для конкретной предметной области телефонной службы поддержки при эффективном распознавании речи.

3. Разработана система, учитывающая частоту использования слов в конкретной предметной области и обеспечивающая при этом увеличение скорости распознавания.

Практическая значимость результатов работы заключается в следующем:

1. Разработана система, реализующая более точное соответствие речевому сигналу, и для наиболее редких слов значение метрики OOV {англ. Out-of-Vocabulary — количество внесловарных слов) не превышает 6%.

2. Данная система программно реализована в виде отдельного модуля, связывающего набор библиотек НТК (Hidden Markov Toolkit) и систему анализа и учёта звонков телефонной службы поддержки клиентов.

3. В результате использования данной системы распознавания речи в телефонной службе поддержки клиентов ООО «Системные решения» значение важнейшей для данной области метрики FCR {англ. First Call Resolution — разрешение проблемы за первый звонок) повышено со зна-

чения 65-75% до значения 72-79% (для различных причин звонка). Кроме того, при использовании дополнительного семантического анализа данных первоначальной работы системы в ООО «Системные решения» значение метрики БСЯ может быть повышено до 85%. Таким образом, данная система будет обеспечивать связь оператора с вычислительной машиной посредством речевого интерфейса с дополнительной визуализацией деталей звонка.

4. Результаты диссертации используются в компании ООО «Энката Техно-лоджис СПб» при построении системы автоматического распознавания речи.

Методы исследований основаны на теории вероятностей, теории информации, законе Парето, статистическом анализе данных, методах автоматного и объектно-ориентированного программирования, математических методах аппроксимации.

На защиту выносятся следующие положения:

1. Модификация алгоритма Витерби, повышающая точность распознавания речи на 2-5%.

2. Система, обеспечивающая более точное соответствие речевому сигналу даже в случае «кэш-промаха».

3. Программная реализация предложенной системы способной работать в квазиреальном масштабе времени при использовании её как средство визуализации речи в телефонных службах поддержки клиентов.

4. Экспериментальные результаты анализа эффективности использования разработанной системы в телефонной службе поддержки клиентов. Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертации, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, компьютерным моделированием, обсуждением материалов на 13 конференциях, а также актами их внедрения на практике.

Апробация результатов работы. Основные положения диссертационной работы доложены и обсуждены на IV-й межвузовской конференции молодых ученых (СПб., 2007), V-й, VI-й, VII-й, VIII-й всероссийской межвузовской конференции молодых ученых (СПб., 2008-2011); XXXVII-й, XXXVIII-й, XXXIX-й, XL-й, XLIV-й научной и учебно-методической конференции Университета ИТМО (СПб., 2008-2011, 2015), всероссийской научно-технической конференции «Интеллектуальные и информационные системы (Интеллеьсг-2009)» (Тула, 2009); IX-й международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности» (СПб., 2010); П-й международной конференции «Informatics and Management Science» (Словакия, 2013).

Реализация и внедрение результатов работы. Основные результаты работы внедрены в учебном процессе на кафедре вычислительной техники Университета ИТМО, при выполнении НИР № 610481 «Разработка методов и средств системотехнического проектирования информационных и управляющих вычислительных систем с распределенной архитектурой», НИР № 340725 «Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени» (ID RFMEFI57514X0033), а также в компаниях ООО «Энката Технолождис СПб» и ООО «Системные решения» (г. Москва), что отражено в актах о внедрении.

Награды. В 2010 году автор стал победителем конкурса грантов Правительства Санкт-Петербурга для аспирантов и был утверждён на стипендию Президента Российской Федерации на 2010-2011 учебный год.

Публикации. По теме диссертации опубликовано 10 научных работ, в том числе семь статей, из которых две [83, 85] опубликованы в научных журналах из перечня ВАК.

Личный вклад. Основные результаты работы, вывод и рекомендации по повышению эффективности телефонных служб поддержки, изложенные в диссертации, получены автором самостоятельно. В работах, опубликованных в со-

авторстве, личный вклад автора заключается в аналитических расчётах, практических экспериментах, реализации программных решений и статистическом анализе полученных результатов.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы и приложения, содержащего материалы, подтверждающие внедрение результатов диссертации. Объём диссертационной работы составляет 127 страниц машинописного текста. Работа содержит 28 рисунков и 16 таблиц, список литературы содержит 127 источников, включая работы отечественных и зарубежных авторов.

1 Анализ алгоритмов и программных средств распознавания речи

1.1 Развитие методов и алгоритмов распознавания

Первые серьёзные исследования и фактические разработки по созданию устройств автоматического распознавания речи были проведены в 40-е годы XX века.

Следует выделить серьёзную попытку автоматического распознавания речи, которая описана Дрейфусом-Графом в 1950 г. [24]. В предложенном «стено-согографе» речевой акустический сигнал пропускался через шесть полосовых фильтров, выходы которых были связаны с отклоняющими катушками, расположенными по окружности трубки устройства отображения. Наличие сигналов на выходах фильтров приводит к появлению на экране электронно-лучевой трубки светящейся точки, положение которой зависит от относительной энергии сигналов в каждом из шести частотных диапазонов.

Таким образом, низкочастотные звуки, соответствующие гласным, приводили к перемещению точки в позиции, отличные от позиций, соответствующих высокочастотным звукам при произнесении шипящих согласных. При этом различным последовательностям звуков соответствовали различные траектории точки на экране. Однако для сопоставления полученного образа с эталоном необходимо было использовать дополнительную процедуру автоматического принятия решений.

В 1952 г. Девис, Биддалф и Балашек из фирмы Bell Telephone Laboratories разработали первый законченный образец распознавателя [18]. Более 97% вре-

мени машина верно распознавала слова, произносимые любым человеком, образцы слов для которого содержались в памяти.

Через несколько лет Дадли и Балашек (1958 г.) создали распознаватель Audrey [25], в котором использовалось разделение сигналов на 10 частотных диапазонов и учитывались их определенные спектральные характеристики, длительность которых сравнивалась с шаблонами слов из словаря. Другой важной особенностью этого распознавателя было разбивка слов на фонетические элементы, которые идентифицировались по их спектральным образам. Особенно высокая точность распознавателя достигалась, если производилась индивидуальная оптимизационная подстройка устройства для каждого говорящего.

Первая система распознавания речи, работавшая на основе цифрового вычислителя, была разработана в 1959-1960 гг [21]. Дине и Мэтьюз впервые использовали важную концепцию временной нормализации, в результате использования которой более короткое высказывание, которое произносилось быстрее эталонного, автоматически «вытягивалось» или нормализовалось до необходимой продолжительности. Более длинное высказывание сокращалось до стандартной длины, и только после этого выполнялось сравнение со словарём.

В 1960-е годы также появились специализированные электронные устройства для распознавания изолированных слов. Причем часто преследовалась цель создать пользующийся спросом дешёвый и компактный прибор, позволяющий распознавать определённые слова из небольшого словаря. Один из таких приборов размером с небольшой чемодан, демонстрировавшийся на всемирной ярмарке в Сиэтле в 1962 г., обычно называли «чемоданным распознавателем фирмы IBM» [105].

Создавались также устройства распознавания японского и немецкого языков.

В обзоре состояния дел в области распознавания речи, сделанном Линдгре-ном в 1965 г. [47], звучал призыв к применению лингвистики более высокого уровня в области распознавания. В частности, одним из направлений выбирался такой метод, при котором предполагаемые и грамматически допустимые фразо-

вые структуры произносимых английских предложений и критерии «осмысленности» последовательностей слов могли бы быть использованы для ограничения машинного выбора формулировки трудно произносимых английских предложений. Ряд исследователей последовали этому призыву и были успешны в своих разработках. Например, в 1966 г. Оттен предложил использовать для представления структуры устного диалога с машиной слоговые элементы, просодики и язык конечных автоматов (марковские модели).

Благодаря подобным разработкам появились коммерческие специализированные устройства распознавания речи, которые стали использоваться при голосовом управлении машинами, наборе телефонных номеров, а в 1967 г. даже при управлении голосом маневрированием космических летательных аппаратов.

Однако к концу 60-х - началу 70-х годов ситуация начала решительно меняться. Причиной тому послужило активное развитие электроники и вычислительной техники. Кроме того, стоит выделить появление лингвистической теории речи, согласно которой устная речь представляется как производная фонетической транскрипции произносимого текста. Одним из первых проектов в этот период стал проект Агентства перспективных исследовательских работ АШ>А [45].

По итогам 5-летнего проекта стоимостью 15 млн. долларов США необходимо было создать машину, которая позволяла бы «понимать» произносимые большим числом говорящих слитные предложения ограниченной грамматики объемом словаря 1000 слов. Этот проект, по существу, основывался на совершенно иных принципах, чем все предыдущие работы по распознаванию речи. В проекте были использованы достижения в области искусственного интеллекта и вычислительной лингвистики, пригодные для решения задачи машинного анализа полных лингвистических структур и выработки разумной машинной реакции, соответствующей смыслу произнесенного предложения или речи.

Исследовательская группа состояла сначала из пяти подрядчиков. Был определен исчерпывающий список параметров для сравнения и окончательной доработки систем (таблица 1.1).

Таблица 1.1 - Результаты проекта ARPA (1976 г.)

Требования проекта HARPY HEARSAY II HWIM Фирма вБС

Количество слов слитной речи 184 предложения 22 предложения 124 предложения 54 предложения

Количество говорящих 3 мужчины и 2 женщины 1 мужчина 3 мужчины 1 мужчина

Уровень шума Зал терминалов ЭВМ Тихая комната

Качественные микрофоны Низкокачественные микрофоны Хорошие микрофоны

Настройка на говорящего 20 контрольных предложений 60 контрольных предложений Без настройки Без настройки

Объём словаря (слов) 1011 1011 1097 1000

Использование искусственного синтаксиса BF=33 BF=33 или 46 BF=196 ВБ=105

Число семантических ошибок 5% 9% или 26% 56% 76%

Превышение реального времени (число раз) при 300 млн. операций/сек. 28 85 500 92

Проект ARPA привел к большим успехам в разработке необходимых принципов создания систем, управляемых с помощью естественно произносимых предложений. Другие исследователи старались не отставать и понимали необходимость максимально быстрого выхода на рынок. Поэтому важны событием в истории распознавания речи, происшедшем в 1972 г., был выпуск первых промышленных образцов устройства распознавания фирмами Scope Electronics и Threshold Technology.

После исследовали уделяли активное внимание непараметрическим системам, которые были основаны на мерах близости различных речевых сигналов

как функций времени [101]. Огромное влияние на развитие этого направления оказал подход Винцюка (1960-е гг. [90]). Т.К. Винцюк предложил метод динамического программирования для быстрого вычисления меры близости между двумя функциями, задающими изменение во времени параметров речевых сигналов. Данный Винцюка, модифицированный Итакурой [42], Уайтом и Ни-ли [105], позволил уменьшить время вычисления значений функции близости к эталонам. Система, разработанная Итакурой, обладала достаточно высокой точностью (99%) при объёме словаря 200 японских географических названий, произносимых по телефону при уровне шума 68 дБ. Используя словарь, состоящий из алфавита и цифр, Итакура получил точность распознавания, равную 88,6%. Уайт и Нили, усовершенствовав методику Итакуры, смогли обеспечить точность распознавания произносимых букв алфавита и цифр, равную 98%.

В 1977 г. Бэкис из фирмы IBM сообщил о версии конечного автомата, в котором в качестве состояний использовались десятимиллисекундные (сан-тисекундные) сегменты энергетического спектра слов [3]. После настройки на конкретного оператора система верно распознавала 96% семизначных телефонных номеров, причём точность определения отдельных цифр превышала 99%. Он также провёл пробные исследования со словарём объёмом 250 слов и языком, состоящим из команд. Обнадёживающие результаты испытания этой сан-тисекундной системы послужили предвестниками того, что произошло в 1978 г. Исследовательская группа IBM сообщила о создании первой коммерческой системы, которая основана на анализе сантисекундных сегментов, обеспечивает распознавание предложений в 95% случаев и распознавание слов командного языка, состоящего из 250 слов, в 99,4% случаев [105].

Ряд исследователей (Бейкер [1] и, независимо, Йелинек [94], 1970-е годы) для распознавания речи использовали теорию скрытых марковских моделей, созданную Баумом и коллегами в конце 60-х—начале 70-х гг [6]. Скрытые марковские процессы (СММ) представляют из себя дважды стохастические процессы: марковские цепи [104] по переходам между состояниями и множества стационарных процессов в каждом состоянии цепи. Основы теории СММ

были опубликованы в нескольких научно-технических изданиях [6, 7]. Но активное распространение и развитие среди разработчиков систем распознавания речи лишь после выхода серии обзоров, посвященных популярному изложению теории СММ [44, 46, 52, 53]. Для обучения моделей и вычисления функции близости к эталону (то есть в данном случае — вероятности наблюдения слова на выходе скрытой марковской модели) использовался метод динамического программирования (алгоритмы прямого-обратного хода [6], Баума—Уэлша или ЕМ-алгоритм [20], Витерби [70, 123]).

Существуют несколько типов моделей, которые можно использовать для описания свойств некоторого заданного сигнала. В широком смысле типы моделей сигнала можно разбить на класс детерминированных и класс стохастических моделей. В детерминированных моделях используются некоторые известные специфические свойства сигнала. Стохастические модели пытаются охарактеризовать только статистические свойства сигналов. Примерами таких моделей являются гауссовские процессы, пуассоновские процессы, марковские процессы, скрытые марковские процессы. Далее марковские процессы рассматриваются более подробно.

1.2 Наблюдаемый марковский процесс

Существует система, которая в произвольный момент времени может находиться в одном из N различных состояний £¡1, 5*2,..., 5дг, как показано на рисунке 1.1, где для простоты ./V = 5 [52].

В определённые дискретные моменты времени система осуществляет изменения состояния (среди которых возможен и переход опять в текущее состояние) в соответствии с определённым вероятностным правилом, связанным с текущим состоянием. Моменты времени, в которые происходит изменение состояния системы, принято обозначать через £ = 1, 2,..., а состояние системы в момент времени Ь принято обозначать как [52]. Чаще всего исследователи ограничиваются частным случаем дискретной цепи Маркова (марковской моде-

огг

ли) - цепью первого порядка, где вероятностное описание требует знания только текущего и предыдущего состояний, то есть переходы осуществляются в соответствии с некоторой матрицей вероятностей:

<Н, = Р[сц = 1 = 1 < < N. (1.1)

Данное выражение должно удовлетворять обычным вероятностным ограничениям:

Оу> 0, (1.2)

N

£>,- = 1. (1.3)

¿=1

Описанный выше стохастический процесс принято называть наблюдаемым марковским процессом [52], так как выходом такого процесса в каждый момент времени является следующее состояние модели, которое соответствует физическому (наблюдаемому) событию. В результате получается последовательность состояний, которую система проходит за время наблюдения.

В качестве примера можно рассмотреть марковскую модель погоды с тремя

состояниями. Используется модель, обладающая тремя состояниями и предназначенная для моделирования погоды [52, 82]. Предполагается, что раз в день (например, в 10 утра) состояние погоды можно описывается строго одной из следующих характеристик:

1. состояние 1: осадки;

2. состояние 2: облачно;

3. состояние 3: ясно.

Матрица , составленная из вероятностей перехода между состояниями в день £, имеет следующий вид:

0,4 0,3 0,3" 0,2 0,6 0,2 • 0,1 0,1 0,8

Пусть известно, что день №1 (£ = 1) —ясный (то есть имеется состояние 3). Можно задать следующий вопрос: какова вероятность (в соответствии с заданной моделью) того, что в этот и последующие 5 дней последовательность состояний погоды будет иметь вид: «ясно-облачно-осадки-осадки-ясно-ясно»?

В результате последовательность наблюдений О = ¿з, 5ъ 5ь 5з, £з, соответствующая моментам времени t = 1, 2,..., 6, задана формально, и требуется определить вероятность появления этой последовательности для данной модели. При использовании формулы Байеса и формулы 1.1 эта вероятность появления О может быть записана и вычислена с помощью выражения:

Р(О|Модель) = Р[53,52,Я ¿^Модель]

= р[53] * * * * /чзд] *

= 7Гз * аз2 * «21 * «и * а!з * «33.

(1.4)

А. — о,ц —

В результате получается:

Р(0|Модель) = 1*(0,1)(0,2)(0,4)(0,3)(0,8) = 1,92*10"4.

В данном случае использовалась запись щ = = ¿ЭД, 1 < г < N для определения вероятностей начальных состояний. Следовательно, в исследуемом случае 7Г3 = = ¿з] - вероятность того, что начальное состояние 3 (то есть ясно).

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Балакшин, Павел Валерьевич, 2014 год

Список литературы

1. Baker J. К. Stochastic modeling for automatic speech understanding // Speech Recognition. — D.R. Reddy, Ed. New York: Academic Press, 1975. — C. 521— 542.

2. Baker J. K. The dragon system - An overview // IEEE Trans. Acoust. Speech Recognition Processing. ASSP-23. - 1975. - C. 24-29.

3. Bakis R. Continuous speech word recognition via senti-second acoustic states // Proc. ASA Meeting (Washington, DC). — Anp. 1976.

4. Balakshin P. V., Sadovnikov E. A., Tropchenko A. U. Usage of the speech recognition system in analysis of call center work // Proceedings in Conference of Informatics and Management Science. The 2nd International Conference. — Slovak Republic, 2013. - C. 277-280.

5. Baum L. E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes // Inequalities. — 1972. - T. 3. - C. 1-8.

6. Baum L. E., Egon J. A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology // Bull. Amer. Meteorol. Soc. - 1967. - T. 73. - C. 360-363.

7. Baum L. E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains // Ann. Math. Stat. - 1966. — T. 37. — C. 1554—1563.

8. Bellegarda J. R. Statistical language model adaptation: review and perspectives // Speech Communication. - 2004. - T. 42. - C. 93-108.

9. Best Voice Recognition Software comparison [Электронный ресурс]. - Яз. англ. (дата обращения: 28.01.2013). — URL: http: //voice-recognition-software-review .toptenreviews.com.

10. Burns M. Speaking to the Dragon // camagazine.com: сетевой журн. — Нояб. 2006 [Электронный ресурс]. - Яз. англ. (дата обращения: 18.12.2010). — URL: http : / / www . camagazine . com / %20archives / print -edition/2006/nov/columns/camagazine7866.aspx.

11. Call Centre Monitoring // callcentrehelper.com: сетевой журн. — 2010 [Электронный ресурс]. - Яз. англ. (дата обращения: 22.04.2010). — URL: http: / /www . callcentrehelper . com/ call - centre-monitoring-16. htm.

12. Carlyle J. W. Reduced forms for stochastic sequencial machines // J. Math. Analysis and Applic. - 1963. - T. 7. - C. 167-175.

13. Chacksfield M. Facebook prepares for voice chat // www.techradar.com: сетевой журн. — Сент. 2009 [Электронный ресурс]. - Яз. англ. (дата обращения: 18.12.2012). — URL: www.techradar.com/news/internet/ facebook-prepares-for-voice-chat-635772.

14. Cleveland В. ICMI's Call Center Management Dictionary. — Call Center Press, 2004. - 226 c. - ISBN 0-6959093-5-2.

15. Contact centres rate call efficiency over customer service // callcentrehelper. com: сетевой журн. — 7 Апр. 2010 [Электронный ресурс]. - Яз. англ. (дата обращения: 28.04.2010). — URL: http : / /www . callcentrehelper . com/contact-centres-rate-call-efficiency-over-custo-mer-service-9921.htm.

16. Corcoran C. Speech recognition card, software due in summer // Info World. — 1994. - Май. - С. 36. - ISSN 0199-6649.

17. Crystal D. The Cambridge Encyclopedia of the English Language. — 2nd edition. — Cambridge University, 2003. — 506 c.

18. Davis К. H., Biddulph R., Balashek S. Automatic recognition of spoken digits // J. Acoust. Soc. Amer. - 1952. - T. 24. - C. 637-642.

19. Davis C. Automatic speech recognition and access: 20 years, 20 months, or tomorrow? // Hearing loss. - 2001. - 22(4). - C. 11-14.

20. Dempster A. R, Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. Roy. Stat. Soc. - 1977. - T. 39, № 1. -C. 1-38.

21. Denes R В., Mathews M. V. Spoken digit recognition using time frequency pattern matching // J. Acoust. Soc. Amer. - 1960. — T. 32. — C. 1450-1455.

22. Dewar M. Inference in Hidden Markov Models with Explicit State Duration Distributions // Signal Processing Letters IEEE. — 2012. — T. 19, вып. 4. — С. 235-238. - ISSN 1070-9908.

23. Dragon speech recognition software [Электронный ресурс]. - Яз. англ. (дата обращения: 17.09.2010). — URL: http: //www.nuance. com/natural-ly%20speaking/.

24. Dreyfus-Graf J. Sonograph and Sound Mechanics // J. Acoust. Soc. America. — 1949. - T. 22. - C. 731-739.

25. Dudley H., Balashek S. Automatic recognition of phonetic patterns in speech // J. Acoust. Soc. Amer. - 1958. - T. 30. - C. 721-739.

26. Duration modeling for HMM-based speech synthesis / T. Yoshimura [и др.] // ICSLP. - 1998. - С. 29-32.

27. Enkata Increase First Call Resolution: Eliminate the Top 10 Agent Errors Causing Repeat Calls // crmxchange.com: сетевая библ. — Дек. 2008 [Электронный ресурс]. - Яз. англ. (дата обращения 18.12.2011). — URL: http: //www.crmxchange.com/offer/enkatadec08.asp.

28. e-Speaking's Software [Электронный ресурс] : офиц. сайт (дата обращения: 10.12.2011). — URL: http: //www.e-speaking.com/.

29. Feldon В. The top five uses of speech recognition technology // callcentrehelper. com: сетевой журн. — 2008 [Электронный ресурс]. - Яз. англ. (дата обращения 19.12.2010). — URL: http : / /www. callcentrehelper . com/ the - top- five - uses - of - speech- recognition - technology-1536.htm.

30. Finch J. Next Call Avoidance - New Predictive Analytics Makes It a New Reality // www.callcentertimes.com: сетевая библ. — Май 2012 [Электронный ресурс]. - Яз. англ. (дата обращения: 11.07.2014). — URL: http : // www. callcentertimes.com/Home/tabid/37/ctl/NewsArticle/ mid/395/CategoryID/l/NewsID/347/Default.aspx.

31. Fluss D. FCR Improves Contact Center Performance // g-cem.org: сетевой журн. — 2010 [Электронный ресурс]. - Яз. англ. (дата обращения: 13.04.2011). — URL: http : / / www . gccrm . com / eng / content_ details.jsp?contentid=2245%5C&amp;subjectid=107.

32. Fluss D. First-Call Resolution Drives Contact Center Improvements // ICMI's Customer Management Insight. — 2008. — T. 19, вып. 4. — С. 46—48.

33. Ford Т. L. Speech Idiosyncrasies are the Nemesis of Speech Recognition Software // University of Maryland. — 2004. — 14 c.

34. Gales M. The Theory of Segmental Hidden Markov Models. — Cambridge University, 1993.

35. Global Contact Center Benchmarking Report: тех. отч. / Dimension Data. — 2007.

36. Gold В., Morgan N. Speech And Audio Signal Processing. — Второе изд. — Wiley, 2011. - 574 с. - ISBN 978-0-470-19536-9.

37. GPS systems with voice recognitions [Электронный ресурс]. - Яз. англ. (дата обращения: 15.04.2011). — URL: http : / /www. dailydigitals . com/ finedrive-voice-30-speech-recognition-gps.html.

38. Hon Т., Nakamura A. An extremely-large-vocabulary approach to named entity extraction from speech // Proceedings of ICASSP'2006. — Toulouse, France, 2006.

39. How is speech recognition applied in call centers? // gloccal.com: сетевой журн. — [Электронный ресурс]. - Яз. англ. (дата обращения: 19.12.2010). — URL: http://www.gloccal.com/voice-recognition/speech-recognition-in-call-centers.html.

40. IBM Launch Continuous Speech Developers Assistance Program // Computer Business Review: сетевой журн. — 23 Нояб. 1992 [Электронный ресурс]. -Яз. англ. (дата обращения 18.12.2012). — URL: http: / /www. cbronline. com/news/ ibm_launch_continuous_speech_developers_ assistance_program.

41. IBM ViaVoice 10 Standard Edition [Электронный ресурс]: офиц. сайт интернет-магазина Amazon. - Яз. англ. (дата обращения: 07.04.2010). — URL: http : / /www . amazon . com/ScanSoft-H109A-G00-10- 0-%20% 5Clinebreak%20VIAVOICE-Standard-vlO/dp/BOOOOA58IV.

42. Itakura F. Minimum prediction residual principle applied to speech recognition // Signal Processing. - 1975. - T. ASSP-23. - C. 67-72.

43. Jelinek F. The development of an experimental discrete dictation recognizer // Proceedings of the IEEE. T. 73. - 1985. - C. 1616-1624.

44. Juang В. H. On the hidden Markov model and dynamic time warping for speech recognition - A unified view // AT&T Tech. J. — 1984. — Сент. — Т. 63, №7.-С. 1213-1243.

45. Klatt D. H. Review of the ARPA Speech Understanding Project // J. Acoust. Soc. Amer. - 1977. - Дек. - Т. 62, № 7. - С. 1345-1366.

46. Levinson S. E., Rabiner L. R., Sondhi M. M. An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech

recognition // Bell Syst. Tech. J. - 1983. - Апр. - T. 62, № 4. - C. 10351074.

47. Lindgren N. Machine Recognition of Human Language // IEEE Spectrum. — 1965. - № 2.

48. Lippmann R. P. Speech recognition by machines and humans // Speech Communication. - 1997. - C. 1-15.

49. Naughton K. Ford Is Developing Voice-to-Text System for Drivers // bloomberg. com: сетевой журн. — Сент 2009 [Электронный ресурс]. - Яз. англ. (дата обращения 18.12.2012).

50. Neustein A. Advanced in Speech Recognition. Mobile Environments, Call Centers and Clinics. — Springer Science, 2010. — 370 c.

51. Plumridge N. IBM introduces medical jargon to speech system // Health Service Journal. - 1998. - Май.

52. Rabiner L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // IEEE. - 1989. - T. 77, № 2. - C. 257-286.

53. Rabiner L. R., Juang В. H. An introduction to the hidden Markov models // IEEE ASSP Mag. - 1986. - T. 3, № 1. - C. 4-16.

54. Research Lab [Электронный ресурс]. - Яз. англ. (дата обращения: 05.05.2008). - URL: http : / /www. research-lab . com/dict2002% 20%5Clinebreak%20read.htm.

55. Robinson Т., Hockberg M., Renals S. The use of recurrent neural networks in continuous speech recognition / под ред. С. H. Lee, F. К. Soong, К. Paliwal. — The Kluwer International Series in Engineering, Computer Science, Kluwer Academic Publishers, Boston, USA, 1996.

56. Rosenfeld R. Two decades of statistical language modeling: where do we go from here // School of Computer Science Carnegie Mellon University. — 2000. - 11 c.

57. Roukos S., Battista V. G., Zampolli A. Language Representation. Survey of the State of the Art in Human Language Technology. — 1995.

58. SoftSoft [Электронный ресурс]: сайт. - Яз. рус. (дата обращения:

05.05.2009). - URL: http : //www.softsoft.ru/search/15503/ index. htm.

59. Software time [Электронный ресурс]: офиц. сайт (дата обращения:

06.06.2010). — URL: http: //www. sof twaretime. com. au/product/ product%5C_list.shtml?category%5Clinebreak=022-001.

60. Speech Recognition Software and Medical Transcription History. — 2003 [Электронный ресурс]. - Яз. англ. (дата обращения 18.12.2012). — URL: http: //www.dragon-medical-transcription.com/historyspeech% 20%5Clinebreak%20recognition-timeline.html.

61. Speech Systems Inc. — 1996 [Электронный ресурс]. - Яз. англ. (дата обращения 18.12.2012). — URL: http : / /www . speech . cs . emu . edu/ сотр.speech%5C%5C/Section6/Recognition/pe500.html.

62. Speech Technology [Электронный ресурс]: офиц. сайт (дата обращения: 06.06.2010). — URL: http://www.speechtechnology.com.

63. Speelman J. A Survey of the PE500 Speech Recognition System and the Development of a Benchmark Test. — 1996.

64. Springer Handbook of Speech Processing / под ред. J. Benesty, M. Sondhi, Y. Huang. - Springer, 2008. - 1176 c.

65. Starke P. H. Theorie Stochastischen Automaten // Elektron Informationsverarb. und Kybern. - 1965. - Т. 1, № 2.

66. Tebelskis J. Speech Recognition using Neural Networks. — School of Computer Science Carnegie Mellon University, май 1995. — 180 с.

67. The Decipher speech recognition system // IEEE ICASSP / M. Cohen [и др.] // Albuquerque. — 1990. - С. 77—80.

68. TranscribeMe [Электронный ресурс] : офиц. сайт. - Загл. с экрана (дата обращения 18.12.2013). — URL: http://transcribeme.com/.

69. ViaVoice [Электронный ресурс]. - Яз. англ. (дата обращения: 15.04.2010). — URL: http://www.pugh.со.uk/Products/scansoft/viavoice% 20%5Clinebreak%20std-10.htm.

70. Viterbi A. J. Error bounds for convolutional codes and an asymptotically optimal decoding algorithm // IEEE Trans. Informat. Theory. — 1967. — T. IT-13. - С. 260-269.

71. Voice recognition software [Электронный ресурс]: офиц. сайт компании IstVoice. - Яз. англ. (дата обращения: 07.01.2010). — URL: http : //www. lstvoice.com/product.html.

72. Whittaker E. W. D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English: дис. ... канд. / Whittaker E. W. D. — Cambridge University, 2000.

73. WintersHilt S. Hidden Markov Model Variants and their Application // BMC Bioinformatics. — 2006. — Сент.

74. Winters-Hilt S., Jiang Z., Baribault C. Hidden Markov Model with Duration Side Information for Novel HMMD Derivation with Application to Eukaryotic Gene Finding // EURASIP Journal on Advances in Signal Processing. — 2010. — Oicr.

75. www.gradtelecom.ru [Электронный ресурс]: офиц. сайт компании Град Телеком. - Яз. рус. (дата обращения: 16.11.2010). — URL: http : / /www . gradtelecom.ru/ru/papers/callcenter/.

76. Young S. The НТК Book. — Entropie Cambridge Research Laboratory, 1997.

77. Бабин Д. H., Мазуренко И. JI., Холоденко А. Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы. — 2004. — Т. 8, 1-4. — С. 45—70.

78. Балакшин П. В. О тестировании систем автоматического распознавания речи // Сборник тезисов докладов конференции молодых ученых, Выпуск 1. Труды молодых ученых / Главный редактор д.т.н., проф. В.О. Никифоров. - СПбГУ ИТМО., 2011. - С. 104-105.

79. Балакшин П. В. Особенности использования распознавания речи в работе колл-центров // Сборник трудов IX Международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности» под ред. А.П. Кудинова. Т. 3. — СПбГПУ., 2010. — С. 35-37.

80. Балакшин П. В. Перспективы применения распознавания речи в колл-центрах // Сборник тезисов докладов конференции молодых ученых, Выпуск 1. Труды молодых ученых / Главный редактор д.т.н., проф. В.О. Никифоров. - СПбГУ ИТМО., 2010. - С. 5.

81. Балакшин П. В. Распознавание речи: развитие или предел? // Интеллектуальные и информационные системы: Материалы Всероссийской научно-технической конференции. — Тульский государственный университет, 2009. - С. 49-51.

82. Балакшин П. В. Функция плотности длительности состояний смм. преимущества и недостатки // Современные проблемы науки и образования. - 2011. - № 1. - С. 36-39.

83. Балакшин П. В., Петров Г. Ю. Некоторые аспекты исследования систем распознавания речи в телефонных службах поддержки // Научно-технический вестник информационных технологий, механики и оптики. Компьютерные системы и информационные технологии. — 2012. — № 77. — С. 71— 76. - ISSN 2226-1494.

84. Балакшин П. В., Тропченко А. Ю. Выбор размера словаря при реализации тестовой системы распознавания речи // Интеллектуальные и информа-

ционные системы: Материалы Всероссийской научно-технической конференции. — Тульский государственный университет., 2009. — С. 51—54.

85. Балакшин П. В., Тропченко А. Ю. Повышение точности алгоритмов распознавания речи на основе скрытых марковских моделей // Научно-технический вестник СПбГУ ИТМО. ИНФОРМАЦИОННЫЕ И ТЕЛЕКОММУНИКАЦИОННЫЕ СИСТЕМЫ. - 2008. - № 46. - С. 232-237.

86. Балакшин П. В., Тропченко А. Ю. Развитие и применение алгоритмов распознавания речи для скрытых марковских моделей // Сборник трудов молодых учёных и сотрудников кафедры ВТ. Выпуск 1 / Под ред. д.т.н., проф. Т.И. Алиева. - СПбГУ ИТМО, 2010. - С. 66-70.

87. Бухараев Р. Г. Некоторые эквивалентности в теории вероятностных автоматов // Уч. записки Казан, университета. — 1964. — № 2. — С. 45—65.

88. Бухараев Р. Г. Основы теории вероятностных автоматов. — М.: Наука : Физматлит, 1985. — 288 с.

89. Венчурный фонд Виктории Тигипко инвестировал в стартап, который преобразует звук в текст // То Ware. Издание о стартапах: сетевой журн. — 12 Дек. 2013 [Электронный ресурс]. - Яз. рус. (дата обращения: 21.05.2014). — URL: http : / /www. towave . ru/news/venchurnyi-fond-viktorii-tegipko-investiroval-v-startap-kotoryi-preobrazuet-zvuk-v-tekst.html.

90. Винцюк Т. К. Распознавание слов устной речи методами динамического программирования // Кибернетика. — 1968. — № 1. — С. 81—88.

91. Возможности программы распознавания речи [Электронный ресурс]. - Яз. рус. (дата обращения: 03.03.2012). — URL: http : / / windowshelp . microsoft. com/Windows/ru-RU/help/55c37f 8e-2b44-45df-bccb-el938230b0041049.mspx.

92. Гойхман О. Я., Надеина Т. М. Основы речевой коммуникации. — Инфра-М, 1997. - 272 с. - ISBN 5-86225-367-х.

93. Гультяева Т. А. Скрытые Марковские процессы. — Новосибирск: Изд-во НГТУ.

94. Джелииек [Елинек] Ф. Распознавание непрерывной речи с помощью статистических методов. // ТИИЭР. — 1976. — Т. 64, № 4. — С. 131—160.

95. Иконин С. Ю., Сарана Д. В. Система автоматического распознавания речи SPIRIT ASR Engine // Цифровая обработка сигналов. — 2003. — № 4. — С. 2-12.

96. Карпов А. А. Модели и программная реализация распознавания русской речи на основе морфемного анализа: дис.... канд. / Карпов А. А. — Санкт-Петербургский институт информатики и автоматизации Российской академии наук, 2007.

97. Кипяткова И. С., Карпов А. А. Опыт разработки модели распознавания русской речи со сверхбольшим словарем // Материалы международной научно-технической конференции OSTIS-2011. — Минск БГУИР, 2011.

98. Кисляков С. В. Разработка и исследование метода распознавания фонем русского языка на основе аппарата линейного предсказания: дис.... канд. / Кисляков С. В. — Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича, 2005.

99. Курочкин С. Н., Бродин А. Г. Проблемы создания многоуровневой системы распознавания речи // Автоматизация и управление в машиностроении. - 1997. — № 2.

100. Леонович А. А. Проблемы распознавания слитной речи // Цифровая обработка сигналов. — 2007. — № 4. — С. 25—28.

101. Мазуренко И. Л. Автоматные методы распознавания речи: дис. ... канд. / Мазуренко И. Л. — Московский государственный университет им. М.В. Ломоносова, 2001.

102. Мазуренко И. Л. Компьютерные системы распознавания речи // Интеллектуальные системы. - 1998. — Т. 3, 1-2. - С. 117—134.

103. Маковкин К. А. Гибридные модели: скрытые марковские модели и нейронные сети, их применение в системах распознавания речи // Модели, методы, алгоритмы и архитектуры систем распознавания речи. — Вычислительный центр им A.A. Дородницына, М., 2006. — С. 40—95.

104. Марков А. А. Пример статистического исследования над текстом «Евгения Онегина», иллюстрирующий связь испытаний в цепь // Известия Академии наук. - 1913. - № 3. - С. 153-162.

105. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ. / под ред. У. Ли. — М.: Мир, 1983.

106. Мечковская Н. Б. Общее языкознание: Структурная и социальная типология языков: Учебное пособие для студентов филологических и лингвистических специальностей. — Флинта. Наука, 2001. — 312 с.

107. Незаметная смерть распознавания речи // habrahabr: сетевой журн. — Май 2010 [Электронный ресурс]. - Яз. рус. (дата обращения: 21.05.2014). — URL: http://habrahabr.ru/post/92771/.

108. Николенко С. И. Распознавание речи. Скрытые марковские модели. — 2008. — URL: http: //logic .pdmi . ras . ru/~sergey/teaching/ asr/10-hmm2.pdf.

109. Олсон П. Жизнь после Siri: что будет с технологией распознавания речи в будущем // Forbes.ru : сетевой журн. — Сент. 2013 [Электронный ресурс]. - Яз. рус. (дата обращения: 21.05.2014). — URL: http: //www. forbes . ru/tekhnologii/internet - i - svyaz/244649- zhizn-posle-siri-chto-budet-s-tekhnologiei-raspoznavaniya-rechi.

110. Оппенгейм А., Шафер Р. Цифровая обработка сигналов / пер. с англ. — М.: Техносфера, 2009. - 856 с. - ISBN 5-94836-077-6.

111. Открытая международная олимпиада по русскому языку [Электронный ресурс] : офиц. сайт (дата обращения: 18.12.2012). — URL: http : / / www. svetozar.ru/index/id/42978/index.html.

112. Потапова П. TranscribeMe: Как создать сервис распознавания речи. — Янв. 2013 [Электронный ресурс]. - Яз. рус. (дата обращения: 21.05.2014). — URL: http://www.hopesandfears.com/hopesandfears/entrep% 20%5Clinebreak%20reneurs/sdelal/124937-transcribeme.

113. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения. Учебное пособие для вузов / под ред. чл.-корр. РАМН проф. Кучеренко В.З. — Гэотар-Медиа, 2011. — 256 с. — ISBN 978-5-9704-1915-1.

114. Рабинер Л. Р., Шафер Р. В. Цифровая обработка речевых сигналов: пер. с англ. / под ред. М. В. Назарова, Ю. Н. Прохорова. — М.: Радио и связь, 1981.-496 с.

115. Ронжин А. Л., Карпов А. А., Ли И. В. Система автоматического распознавания русской речи SIRIUS // Искусственный интеллект. — 2005. — № 3.

116. Сапунов Г. В. СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ДЛЯ ПАРАЛЛЕЛЬНЫХ АРХИТЕКТУР: дис.... канд. / Сапунов Г. В. — Московский государственный институт электроники и математики (технический университет), 2005.

117. Скрытые марковские модели. — Институт проблем передачи информации.

118. Стандарт EN 15838:2009 [Электронный ресурс]. - Яз. рус. (дата обращения: 13.04.2011). — URL: http: //www. iccci . ru/iccci/call%5C_ centers%5C%5C/en%5C_15838/.

119. Супрун A. E. Лексическая топология славянских языков. — Изд-во Белго-суниверситета, 1983. — 48 с.

120. Таблица значений критерия Стюдента (t критерия). — URL: http : / / chemstat.com.ru/node/17.

121. Тарасенко С. Телетрансляции и шоу можно будет прочитать // Метро. — 2014. - Март. - С. 10.

122. Туровец А. А. Формирование базового словаря для системы распознавания слитной русской речи // Научная сессия МИФИ-2004. Интеллектуальные системы и технологии. — 2004. — Т. 3. — С. 112—113.

123. Форни-мл Д. Д. Алгоритм Витерби // ТИИЭР. - 1973. — Т. 61, № 3. -С. 12-25.

124. Хижинский Д. Распознавание речи взорвет рынок call-центров // CNews: сетевой журн. — 2007 [Электронный ресурс]. - Яз. рус. (дата обращения: 11.05.2010). — URL: http : / /www . cnews . ru / reviews / index . shtml?2007/05/22/251191.

125. Хитров M. В. Распознавание речи в системах контроля персонала // Директор по безопасности. — 2012. — № 7. — С. 38—41.

126. Хитров М. В. Распознавание русской речи: состояние и перспективы // Речевые технологии. — 2008. — № 1. — С. 83—87.

127. Центр Речевых Технологий создал первую технологию по распознаванию слитной русской речи [Электронный ресурс] : офиц. сайт (дата обращения 17.01.2013). - 2008. - URL: http : / /www . speechpro . ru/media/ news/2008-01-30.

^ГепкЫс

Общество с ограниченной ответственностью « Энката Технолоджис Санкт-Петербург» 191119, Российская Федерация, Санкт-Петербург, ул. Марата, д.69-71, блок «А», 6 этаж Тел.: (812) 324-98-32 Факс: (812) 441-30-97 ИНН/КПП: 7840470798 / 784001001

о внедрении научных и практических результатов кандидатской диссертации Балакшина Павла Валерьевича на тему «Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов»

Настоящий акт подтверждает внедрение в компании ООО «Энката Технолоджис СПб» следующих результатов диссертационной работы Балакшина П.В.;

• Классификация и детальный анализ современных средств разработки систем распознавания речи с открытым исходным кодом.

• Модифицированный алгоритм Витерби, повышающий точность распознавания речи на 2-5% за счёт использования дополнительной информации о длительности состояний.

Указанный алгоритм используется при построении системы автоматического распознавания речи, применяемой для анализа работы телефонных служб поддержки клиентов.

Акт

Генеральный директор ООО «Энката Технолодж

17.09.2014

к.ф.-м.н. Приходько О.А.

СИСТЕМНЫЕ РЕШЕНИЯ

Справка

об использовании научных и практических результатов кандидатской диссертации Бапакшина Павла Валерьевича на тему «Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов»

■J

Настоящая справка подтверждает использование в компании ООО «СИСТЕМНЫЕ РЕШЕНИЯ» (г. Москва) следующих результатов диссертационной работы Балакшина П.В.:

1. Визуализация деталей звонка с возможностью модификации, которая обеспечивает возможность более точной настройки словаря и связности слов, (изложена в главе 3 диссертации).

2. Программная реализация системы автоматического распознавания речи, которая была использована при модификации существующей системы учёта и контроля звонков клиентов (изложена в главе 4 диссертации).

Представленные материалы также используются для коррекции причин поступающих звонков с целью максимизации идентифицированных звонков.

Указанные программные средства позволили повысить значение метрики FCR (англ. First Call Resolution — решение вопроса клиента за первый звонок) со значения 65-75% до значения 72г79% и, как следствие, повысить эффективность работы телефонной службы поддержки клиентов.

29.09.2014 г.

Начальник отдела Садовников Е.А.

Начальник шжен&бдбго отд^дар^о! Кокшаров А.И.

Генеральный }

ООО «СИСТЕЦШЕ РЕШЕНИЯ®/ Хренов А.И.

ООО «СИСТЕМНЫЕ РЕШЕНИЯ» Юридический адрес;

111024» Москва, ул. Авиамоторная, д 55, корп. 31 Фактический адрес:

128018, Москва, ул. Складочная, д.1, стр. 10 Банковские реквизиты: ИНН/КПП: 7715758042/772201001

Расчетный счет: 40702810000000005542 в АКБ «РОСЕВРОБАНК» (ОАО) Корр. счет: 30101810800000000777 БИК: 044585777

УТВЕРЖДАЮ

оректор по НР ситета ИТМО ., профессор Щ| Никифоров 201.fr.

АКТ

- об использовании научных и практических результатов кандидатской диссертации Балакшина Павла Валерьевича в учебном процессе в Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики

Настоящий акт подтверждает использование на кафедре вычислительной техники в учебном процессе следующих результатов диссертационной работы Балакшина П.В.:

• Анализ существующих методов и алгоритмов распознавания речи.

• Модифицированный алгоритм Витерби, повышающий точность соответствия: речевому сигналу.

• Особенности синтаксического анализа речи.

Указанные результаты используются в следующих курсах:

• «Методы цифровой обработки сигналов» для бакалавров по направлению 230100,

• «Теоретическая информатика» для магистров по направлению 09.09.04.

Также результаты диссертации используются при проведении практики 3-го курса и работе над выпускными квалификационными работами бакалавров.

Заведующий кафедрой вычислительной техники Заслуженный работник высшей школы РФ

д.т.н., профессор —- 1 Т.И. Алиев

АКТ

об использовании научных и практических результатов кандидатской диссертации Балакшина Павла Валерьевича на тему «Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки, клиентов»

Мы, нижеподписавшиеся, составили настоящий акт в том, что при выполнении НИР № 610481 «Разработка методов и средств системотехнического проектирования информационных и управляющих вычислительных систем с распределенной архитектурой», выполняемой на кафедре вычислительной техники, использованы * разработанные ассистентом кафедры вычислительной техники Университета ИТМО Балакшиным ILB. в ходе исследований по теме диссертационной работы следующие алгоритмические и программные средства:

• Модифицированный алгоритм Витерби.

• Алгоритм выбора следующего слова из речевого словаря.

• Модуль для связи набора библиотек НТК Toolkit с другими системами.

Указанные средства не только обеспечивают эффективное проектирование моделей распознавания речевого сигнала, но и позволяют повысить качество обработки и передачи информации в системах распознавания речи.

Научный руководитель НИР д.т.н,, профессор

Т.И. Алиев

Руководитель группы д.т.н., профессор

А.Ю. Тропченко

Справка

об использовании научных и практических результатов кандидатской диссертации Балакшина Павла Валерьевича на тему '«Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов»

Настоящая справка подтверждает использование в НИР № 340725 «Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени» (ГО КРМЕП57514X0033), выполняемой на кафедре речевых информационных систем (базовой кафедре ООО «Центр речевых технологий»), разработанных Балакшиным II. В. в ходе исследований по теме диссертационной работы ал! оритмических и программных средств распознавания русской речи на основе модификации алгоритма Витерби.

Указанные программные средства также обеспечивают визуализацию деталей звонка клиента телефонной службы поддержки за счёт возможности боле точной настройки речевого словаря и позволяют повысить эффективность работы телефонной службы поддержки за счёт улучшения значений ключевых метрик.

Научный руководитель НИР № 340725 Зав. каф. РИС, д.т.н.

Ю.Н. Матвеев

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.