Методы обучения распознаванию образов в условиях нестационарности решающего правила тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат наук Турков Павел Анатольевич

  • Турков Павел Анатольевич
  • кандидат науккандидат наук
  • 2017, ФГБОУ ВО «Тульский государственный университет»
  • Специальность ВАК РФ05.13.18
  • Количество страниц 110
Турков Павел Анатольевич. Методы обучения распознаванию образов в условиях нестационарности решающего правила: дис. кандидат наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. ФГБОУ ВО «Тульский государственный университет». 2017. 110 с.

Оглавление диссертации кандидат наук Турков Павел Анатольевич

Введение

Глава 1. Проблема обучения распознаванию образов в

условиях нестационарности решающего правила

1.1 Прикладные задачи, приводящие к необходимости обучения в условиях нестационарности решающего правила

1.2 Постановка задачи обучения в условиях нестационарности решающего правила

1.2.1 Классическая задача обучения распознаванию образов

1.2.2 Задача обучения распознаванию образов в условиях нестационарности решающего правила

1.3 Существующие методы обучения в нестационарной генеральной совокупности

1.4 Основные задачи исследования

Глава 2. Байесовский подход к оцениванию параметров

нестационарного решающего правила

2.1 Иерархическая вероятностная модель с регулируемой селективностью в условиях нестационарности решающего правила

2.2 Априорная модель параметров нестационарного решающего правила

2.3 Встроенный метод отбора признаков в условиях нестационарности решающего правила

Глава 3. Выбор модели генеральной совокупности

3.1 Модель опорных векторов (fixed margin)

3.1.1 Классический метод опорных векторов

3.1.2 Вероятностная модель метода опорных векторов

3.2 Логистическая регрессия

Глава 4. Процедура оценивания параметров иерархической

вероятностной модели с регулируемой селективностью в условиях нестационарности решающего правила

4.1 Парно-сепарабельный критерий для оценивания параметров иерархической вероятностной модели с регулируемой селективностью

4.1.1 Модель опорных векторов (fixed margin)

4.1.2 Модель логистической регрессии

4.2 Метод покоординатного спуска для оценивания параметров в условиях нестационарности решающего правила

4.2.1 Оценка структурного параметра

4.2.2 Модель опорных векторов (fixed margin)

4.2.3 Модель логистической регрессии

Глава 5. Процедура оценивания параметров решающего

правила в иерархической вероятностной модели с регулируемой селективностью

5.1 Двойственная форма задачи обучения относительно множителей Лагранжа при линейных ограничениях-неравенствах

5.1.1 Функция Лагранжа

5.1.2 Минимизация функции Лагранжа по последовательности значений направляющего вектора

5.1.3 Минимизация функции Лагранжа по смещениям точек обучающей последовательности

5.1.4 Двойственная задача квадратичного программирования

5.2 Решение задачи обучения

5.3 Метод наискорейшего спуска для минимизации двойственной целевой функции обучения

5.4 Допустимое направление и шаг наискорейшего спуска

Глава 6. Процедура динамического программирования для оценивания параметров решающего правила в иерархической вероятностной модели с регулируемой селективностью

6.1 Общие положения

6.2 Модель опорных векторов (fixed margin)

6.3 Модель логистической регрессии

Глава 7. Процедура подбора структурных параметров

нестационарной модели

Глава 8. Экспериментальные исследования методов обучения

__о о

распознаванию образов в нестационарной генеральной

совокупности

8.1 Экспериментальные исследования на модельных данных

8.2 Экспериментальные исследования на реальных данных

Заключение

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы обучения распознаванию образов в условиях нестационарности решающего правила»

Введение

Актуальность проблемы распознавания образов в первую очередь обусловлена быстрым увеличением объемов получаемой информации и необходимостью в максимально быстрой и качественной ее обработке, а также в решении проблем хранения и передачи этой информации в сжатой форме.

В классической постановке задачи распознавания универсальное множество, называемое генеральной совокупностью, разбивается на части-образы, также называемые классами. Образ какого-либо объекта задается набором его частных проявлений. Методика отнесения элемента к какому-либо образу называется решающим правилом. В диссертационной работе рассматривается задача обучения с учителем, т.е. для построения решающего правила будет использоваться некоторое множество объектов, на которых известна их скрытая характеристика - образ (класс), к которому данный объект относится. Наиболее известной и изученной является ситуация, когда распознавание производится на множестве выбранных из генеральной совокупности объектов, свойства которых не изменяются со временем. Однако существует достаточно большое количество практических задач, в которых свойства наблюдаемого объекта или явления могут существенным образом измениться в процессе обучения и, если это изменение не будет учтено в алгоритме обучения, построенное решающее правило будет обладать плохой обобщающей способностью.

Первая проблемная ситуация состоит в том, что в процессе обучения влияние каких-то скрытых факторов может привести к большим или меньшим изменениям в генеральной совокупности и, как следствие, в решающем правиле. Существующие методы распознавания, применимые для работы в условиях нестационарности решающего правила, можно разделить на две группы: методы, использующие один классификатор, и методы, основанные на ансамбле классификаторов.

Алгоритмы, использующие для обработки поступающих объектов одно решающее правило, делятся в свою очередь на две группы в зависимости от подхода к использованию информации об объектах. Первый подход эксплуатирует идею отбора наиболее релевантных объектов для повторного обучения решающего правила. Предположения о релевантности могут основываться на

каких-то априорных соображениях или же на дополнительных методах измерения важности каждого объекта и его вклада в решающее правило. Второй подход эксплуатирует способность некоторых существующих алгоритмов обучения в ходе работы присваивать веса обрабатываемым объектам. Веса могут назначаться исходя из важности объекта или его возраста.

Вторую большую группу методов обучения в условиях нестационарности решающего правила составляют методы, основанные на комбинировании классификаторов. В этом случае на множестве всех объектов обучающей выборки строится семейство решающих правил, которые объединяются затем на основе некоторого критерия.

Общим недостатком существующих методов распознавания в нестационарной генеральной совокупности является то, что они основаны на эвристиках, конкретный набор которых зависит от специфики решаемой задачи.

Для разрешения этой проблемной ситуации в настоящей диссертации используется специальная байесовская постановка задачи обучения распознаванию образов в нестационарной генеральной совокупности. Основная идея байесовской постановки заключается в построении системы вероятностных предположений о плотностях распределения объектов, определяемых объективно существующей, но неизвестной гиперплоскостью при некоторых априорных предположениях о распределениях ее параметров. Для описания динамической составляющей модели параметры этой гиперплоскости понимаются как случайные стационарные марковские процессы, при этом параметр распределения направляющего вектора является структурным параметром, регулирующим сложность построенной модели.

Другая проблемная ситуация состоит в том, что поскольку единственным источником информации об исследуемом концепте являются объекты обучения, необходимо постоянное пополнение обучающего множества объектами, содержащими наиболее адекватные на данный момент данные о состоянии генеральной совокупности, что означает практически постоянный рост размера обучающей выборки. Возникает задача инкрементного обучения, когда после завершения построения решающего правила по заданному обучающему множеству в распоряжение разработчика поступают дополнительные объекты с известной для них скрытой характеристикой, которые было бы желательно

использовать для дополнительного обучения, т.е. коррекции уже созданного классификатора.

Для разрешения этой проблемной ситуации предлагается использование в дополнение к упомянутому выше описанию параметров на основе марковских случайных процессов методов динамического программирования, позволяющих производить оценку параметров модели, основываясь на ранее полученных значениях.

Третья проблемная ситуация заключается в том, что также как и для классической задачи распознавания образов, для задач распознавания в нестационарной генеральной совокупности актуальной является проблема переобучения, которая характеризуется плохой обобщающей способностью решающего правила, построенного по обучающей выборке. Как правило, данная проблема решается с помощью применения методов отбора адекватной признаковой информации. Основная идея такого подхода основана на предположении о наличии в исходном множестве данных нерелевантных признаков, влияние которых может уменьшить качество распознавания решающего правила, или избыточных признаков. Удаление таких признаков позволяет улучшить скорость и точность работы алгоритма обучения (Zhou, 2014).

В соответствии с применяемыми в них критериями и методологиями среди методов отбора признаков для задач обучения с учителем можно выделить три группы: методы фильтрации, методы-обертки (wrapper methods) и встроенные методы.

— методы фильтрации Данный подход, как описано в (Dash, 2008) или (Bekkerman, 2003) удаляет нерелевантные признаки из исходного признакового набора, после чего передает полученное множество непосредственно алгоритму обучения.

— методы-обертки Релевантный признаковый набор выбирается исходя из результатов применения алгоритма классификации. В этом случае метод отбора признаков основывается на выделении подмножеств признаков и оценивании на каждом таком подмножестве параметров решающего правила, (Kohavi, 1997). Целью метода является обнаружение признакового подмножества, на котором была получена наилучшая оценка с точки зрения качества распознавания.

— встроенные методы В данной группе содержатся методы обучения, включающие в себя и алгоритм классификации и способность отбора признаковой информации. Таким образом, создание релевантного признакового подмножества производится в процессе оценки параметров модели (Bi, 2003), (Zhou, 2010). Для разрешения этой проблемной ситуации логично использовать какой-либо встроенный метод отбора признаков, так как в задачах обучения распознаванию образов в нестационарной генеральной совокупности вся обучающая совокупность, как правило, не хранится из-за ее потенциально бесконечной длины, что делает невозможным применение фильтров. В диссертационной работе предлагается ввести в модель генеральной совокупности дополнительное априорное распределение для параметров разделяющей гиперплоскости с тем, чтобы сделать возможным автоматический отбор признаков при заданном уровне селективности модели, который определяется соответствующим структурным параметром.

Четвертая и последняя проблемная ситуация заключается в настройке структурных параметров метода обучения, которыми являются уровень сложности искомой зависимости и параметр селективности отбора признаковых переменных, и которые принципиально невозможно выбрать из условия наилучшей аппроксимации обучающей совокупности.

В теории машинного обучения литература на тему выбора модели достаточно обширна. В частности, на практике для оценки обобщающей способности класса моделей и последующим выборе «наилучшей» обычно применяются методы кросс-валидации. Методы данной группы резервируют часть исходной выборки для обучения алгоритма, а оставшуюся часть используют для контроля качества. Выполняя некоторое достаточно большое количество независимых разбиений исходной выборки на обучение и контроль, в качестве оценки обобщающей способности модели предлагается брать среднее арифметическое значений качества контроля, вычисленных на каждом этапе разбиения. Другой способ выбора структурных параметров модели предлагает теоретически оценивать на сколько качество обучения, вычисленное по исходной выборке, участвующей в обучении, отличается от истинного в зависимости от данных обучения и сложности класса решающих правил (значения структурного параметра). В основе таких методов лежит идея вычисления «эффективной» раз-

мерности модели. Неоднозначность выбора меры «сложности» модели, а значит и ее «эффективной» размерности, привела к широкому разнообразию критериев: информационный критерий Акаике (AIC, 73), BIC (Schwarz, 78), TIC (Takeuchi, 76), NIC (Neural Information Criteria, Murata et. Al, 94), критерий Мэллоуса (Mallows, 73). Основной проблемой этой группы методов является построение меры «сложности», что для ряда семейств моделей крайне трудоемко и зачастую невозможно.

Для разрешения этой проблемной ситуации в данной работе используется адаптация метода скользящего контроля для условия поступления объектов обучающей выборки на протяжении некоторого временного отрезка. Предлагаемый метод построен на использовании процедуры динамического программирования «вперед-и-навстречу», основанной на понятии левой и правой функций Беллмана, раздельное вычисление которых позволило построить эффективную в вычислительном отношении процедуру скользящего контроля для подбора структурных параметров.

Объект исследования: задачи распознавания образов, в которых эмпирическая зависимость между скрытыми и наблюдаемыми характеристиками исследуемого явления или объекта изменяется с течением времени.

Предмет исследования: методология обучения распознаванию образов в нестационарной генеральной совокупности и в режиме реального времени.

Целью является разработка алгоритмически эффективных методов обучения распознаванию образов с высокой обощающей способностью на данных, полученных от исследуемого явления или объекта, свойства которых изменяются с течением времени.

Для достижения поставленной цели в работе сформулированы и решены следующие задачи исследования:

— Постановка задачи обучения распознаванию образов в нестационарной генеральной совокупности с предположением о марковском характере зависимости между параметрами решающего правила в соседние моменты времени. Предлагаемая постановка задачи должна обеспечивать отбор признаков в процессе обучения.

— Разработка неитерационного алгоритма решения задачи обучения распознаванию образов в нестационарной генеральной совокупности в ре-

жиме реального времени на основе модели логистической регрессии и метода динамического программирования.

— Разработка неитерационного алгоритма решения задачи обучения распознаванию образов в нестационарной генеральной совокупности в режиме реального времени на основе модели метода опорных векторов и метода динамического программирования.

— Разработка итерационного алгоритма подбора параметров разработанных методов обучения распознаванию образов в нестационарной генеральной совокупности на основе метода скользящего контроля и метода динамического программирования.

— Экспериментальное исследование разработанных методов обучения распознаванию образов в нестационарной генеральной совокупности.

Методы исследования. Теоретическое исследование базируется на общих принципах линейной алгебры, методе опорных векторов, методах выпуклой оптимизации и основах байесовской теории принятия решений. Экспериментальное исследование проводилось с использованием программно-алгоритмического комплекса, разработанного автором.

Научная новизна: В данной работе впервые сформулирован вероятностный подход к проблеме обучения в условиях несационарной генеральной совокупности. Предложены два семейства параметрических вероятностных моделей обучающей совокупности и вытекающий из него класс линейных решающих правил и критериев обучения. Разработаны соответствующие алгоритмы апостериорного оценивания разделяющей гиперплоскости, реализующие байесовский принцип обучения с заданной селективностью отбора признаков объектов.

Основные положения, выносимые на защиту:

1. Общая математическая постановка задачи обучения двухклассовому распознаванию образов в линейном пространстве признаков для нестационарной генеральной совокупности.

2. Вероятностная модель динамики параметров решающего правила в нестационарной генеральной совокупности.

3. Концепция парно-сепарабельной квадратичной целевой функции с последовательной смежностью векторных переменных и индивидуальны-

ми линейными ограничениями на переменные как критерия оценивания нестационарной разделяющей гиперплоскости

4. Асимптотически точный итерационный метод оценивания модели нестационарной разделяющей гиперплоскости путем решения соответствующей задачи парно-сепарабельного квадратичного программирования, основанный на методе наискорейшего спуска, использующий на каждой итерации метод динамического программирования и имеющий линейную вычислительную сложность относительно числа векторных переменных.

5. Концепция квадратичной аппроксимации неквадратичной функции Беллмана как основного принципа приближенного неитерационного решения задачи парно-сепарабельного квадратичного программирования для оценивания параметров нестационарной разделяющей гиперплоскости.

6. Неитерационный алгоритм оценивания параметров нестационарной гиперплоскости путем приближенного решения соответствующей задачи парно-сепарабельного квадратичного программирования на основе процедуры динамического программирования.

7. Априорная иерархическая вероятностная модель параметров восстанавливаемой нестационарной зависимости, позволяющая осуществлять селективное комбинирование признаковой информации

8. Итерационная процедура оценивания параметров нестационарной генеральной совокупности, позволяющая наряду с определением оптимального направляющего вектора и зазора отбирать релевантную признаковую информацию.

9. Применение приближенной процедуры динамического программирования для определения структурных параметров селективности и сглаживания при оценивании нестационарной модели.

Научная и практическая значимость заключается в том, что разработанные алгоритмы позволяют строить решающие правила распознавания образов при заведомо избыточном множестве признаков представления объектов и относительно малом объеме обучающей совокупности без опасности снижения обобщающей способности результата обучения.

Благодарность Автор выражает глубокую признательность своему научному руководителю к.ф.-м.н. Красоткиной Ольге Вячеславовне за формирование и воспитание научной личности автора. Автор благодарен проф., д.т.н. Моттлю Вадиму Вячеславовичу и коллективу кафедры «Информационная безопасность» ТулГУ за их помощь и поддержку в научной деятельности, а также ряду других лиц, способствовавших появлению данной работы.

Степень достоверности подтверждается доказанными математическими утверждениями и модельными экспериментами. Результаты находятся в соответствии с результатами, полученными другими авторами.

Апробация работы. Основные результаты работы докладывались на:

The 4th International Conference on Pattern Recognition and Machine Intelligence, Moscow, Russia, 2011

15-я Всероссийская конференция «Математические методы распознавания образов», Петрозаводск, 2011

8th International Conference «Machine Learning and Data Mining in Pattern Recognition», Berlin, Germany, 2012

9-я международная конференция «Интеллектуализация обработки информации», Будва, Черногория, 2012

16-я Всероссийская конференция «Математические методы распознавания образов», Казань, 2013

The 5th International Conference on Pattern Recognition and Machine Intelligence, Kolkata, India, 2013

10-я международная конференция «Интеллектуализация обработки информации», Крит, 2014

11-я международная конференция «Интеллектуализация обработки информации», Барселона, Испания, 2016

Публикации. Основные результаты по теме диссертации изложены в 13 печатных изданиях [1-13], 7 из которых изданы в журналах, рекомендованных ВАК [2; 4; 6-8; 10; 12], 5 — в тезисах докладов [1; 3; 5; 9; 13].

Объем и структура работы. Диссертация состоит из введения, четырёх глав, заключения и двух приложений. Полный объём диссертации составляет 110 страниц с 10 рисунками и 7 таблицами. Список литературы содержит 62 наименования.

Глава 1. Проблема обучения распознаванию образов в условиях нестационарности решающего правила

1.1 Прикладные задачи, приводящие к необходимости обучения в условиях нестационарности решающего правила

Обычно в задачах распознавания образов предполагается, что свойства генеральной совокупности неизменны на протяжении всего процесса обучения. Однако мы можем столкнуться с задачами иного рода, в которых влияние каких-то скрытых факторов может привести к большим или меньшим изменениям в генеральной совокупности и, как следствие, в решающем правиле. В таком случае говорят о нестационарности решающего правила, в литературе также встречаются термины «нестационарная генеральная совокупность» («non-stationary environment») и «смещение концепта» («concept drift»). Под смещением здесь понимается изменение свойств анализируемого явления, вследствие чего происходит «дрейф» решающего правила в признаковом пространстве.

Проблемы подобного вида, в которых имеет место нестационарность решающего правила, существуют во многих областях применения, в том числе в медицине [14; 15], промышленности [16], образовании [17], и бизнесе [18]. В целом практические приложения, в которых скрытые процессы оказывают влияние на состояние решающего правила, могут быть разделены на четыре категории:

— Мониторинг и контроль. Данная категория включает в себя обнаружение аномального поведения и опастной деятельности в Интернете, компьютерных и телекоммуникационных сетях, финансовых операциях и других областях применения, где необходимо извещение о необычном поведении. Часто задачи данной группы формулируются как задачи обнаружения.

— Управление и стратегическое планирование. Здесь содержатся задачи прогнозного анализа, такие как оценка кредитоспособности, прогноз спроса и предложения, прогноз времени движения транспортных средств, прогноз преступности по регионам.

— Личная помощь и информация. В качестве задач этой категории можно упомянуть создание рекомендательных систем, классификацию и ор-

ганизацию текстовой информации, профилирование клиентов продаж, категоризацию личной почты и фильтрацию спама.

— Различные приложения окружающей среды. К данной категории относят широкий спектр стационарных и передвижных систем, которые взаимодействуют с изменяющимся внешними условиями, например, таких как системы перемещения роботов, мобильные транспортные средства, умная бытовая техника. Рассмотрим эти категории более подробно.

Мониторинг и контроль. В приложениях мониторинга и контроля данные часто представлены в виде временных рядов, для которых двумя наиболее типичными задачами обучения являются прогнозирование временных рядов (задача регрессии) и обнаружение аномалий (задача классификации). Онлайн прогнозирование расхода топлива в промышленной котельной [16] является примером приложения в категории управления и контроля. Прогнозирование расхода топлива будет способствовать улучшению функционирования и управления котла. В установившемся режиме сгорание зависит от изменения скорости подачи топлива и неполного смешивания топлива. Таким образом знание массового расхода является важным для управления котлом. Система принимает топливо, которое непрерывно смешивается внутри и передается из контейнера к котлу. Масштабирование датчиков, расположенных в контейнере обеспечивает потоковую передачу данных. Задача состоит в прогнозировании (оценке) массового расхода в режиме реального времени. Нестационарность решающего правила происходит из-за следующих причин. Подача топлива является ручным и нестандартизированным процессом, который не обязательно является гладким и может иметь короткие перерывы, так как каждый оператор котла имеет свои привычки. Показатели процесса могут зависеть от типа и качества используемого топлива. Основное внимание для адаптивного алгоритма обучения должно быть направлено на обнаружение двух типов изменений: резкое изменение количества топлива и медленный, но все еще резкий, переход к сжиганию. Одной из проблем для обучения является то, что обратная связь (идеальный случай массового расхода) отсутствует вообще, и может быть только ретроспективно приблизительно оценена рассматривая исторические данные. Дополнительной проблемой является работа с отдельными односторонними выбросами, которые могут быть легко принять за изменения. Традиционные подходы (например,

ADWIN) для явного обнаружения изменений на основе мониторинга сигнала сырьевого датчика или потоковой ошибки регрессоров дают неплохие результаты, но и они могут быть улучшены путем учета особенностей применения.

Управление и стратегическое планирование. Умные сети электроснабжения (Smart Grid) - это электрическая система, которая использует двухстороннюю цифровую информацию, кибер-безопасные коммуникационные технологии и компьютерный интеллект в качестве единого целого в гетерогенной и распределенной выработке, передаче, распределении и потреблении электроэнергии для достижения энергоэффективности. Новизна таких сетей состоит в наличии интеллектуального слоя, анализирующего данные, получаемые с помощью умных счетчиков, которые позволяют компаниям использовать новые мощные возможности управления сетями, планирования и заказа услуг в области энергоэффективности. С появлением умных сетей электроснабжения изменился механизм производства, ценообразования и оплаты энергии. Их ключевым аспектом является распределение производства энергии, в особенности использование возобновляемых источников энергии. Проникновение возобновляемых источников энергии (солнечной, ветровой и т.д.) растет быстрыми темпами, и прогнозирование их мощности становится важным фактором в определении политики планирования для системного оператора передачи электроэнергии. Обзор литературы по данному направлению [19] оставляет впечатление, что большинство предложений основаны на тренировочном режиме офф-лайн, т.е. построении статической модели, которая затем используется для прогнозирования. Подобное предположение о стационарности ветряной модели электроэнергии должно быть поставлено под сомнение [20; 21]. Так, используя реальные данные из трех отдельных ветропарков, в [21] представлены достоинства онлайн обучения по сравнению с офф-лайн обучением нейронных сетей. Таким образом авторы отмечают эволюционный характер данных и наличие нестационарности в поведенческих шаблонах ветра.

Личная помощь и информация. Классификация текстов была популярной темой в области машинного обучения на протяжении нескольких десятилетий. Тем не менее, интересные приложения, относящиеся к проблеме нестационарности решающего правила, появились в ней сравнительно недавно. Примеры использования потоков текста включают классификацию электронной почты [22], обнаружение спама в электронной почте [23] и анализ тональности текста [24].

Анализ тональности текста является популярной задачей социального мониторинга средств массовой информации, анализа обратной связи от потребителя и других приложений. Основным источником нестационарности в классификации электронной почты и фильтрации спама является изменение содержимого и представления электронного письма, а также адаптивное поведение спамеров, пытающихся преодолеть спам-фильтры. Кроме того, пользователи могут изменять свое отношение к конкретным категориям электронной почты, рассмот-ривая их иногда как спам, иногда как неспам. При анализе тональности текста словарь, используемый для выражения положительных и отрицательных чувств, может изменяться с течением времени. Так как коллекция документов не является постоянной, пространство признаков, описывающее текущую коллекцию, является динамическим, что может потребовать специального обновления модели. В этой области применяются различные адаптивные стратегии обучения, в том числе специализированные методы, такие как рассуждения на основе прецедентов и ансамбли, либо развивающиеся либо с использованием явного обнаружения изменений посредством детекторов изменения. Наличие обратной связи является серьезной проблемой в задачах данной категории. Дилемма состоит в том, что если обратная связь легко доступна, то не подразумевается необходимость автоматизированного прогноза. В классификации электронной почты мы можем надеяться на получение время от времени обратной связи от пользователя в случае неправильной классификации или возможна разработка активной системы обучения (например, [25]), которая время от времени просит пользователя разметить предоставляемые письма. Тем не менее, очевидно, что когда это возможно, мы должны стремиться к автоматическим способами классификации электронной корреспонденции. Предположим, что для мониторинга отношения людей к политической партии, мы хотим классифицировать отношения или настроения твитов из Twitter. Разделение твитов вручную на положительные и отрицательные является трудоемким и дорогостоящим процессом. Однако, твиты могут иметь предоставляемые автором показатели настроения: подразумевается, что изменение настроения состоит в использовании различных видов смайликов, следовательно, возможно их применение для разметки данных обучения. Смайлики или эмотиконы - это визуальные сигналы, которые соответствуют эмоциональному состоянию, они построены с использованием символов, доступных на стандартной клавиатуре, представляя стилизованное

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Список литературы диссертационного исследования кандидат наук Турков Павел Анатольевич, 2017 год

Список литературы

1. Красоткина О. В., Моттль В. В., Турков П. А. Байесовский подход к задаче обучения распознаванию образов в нестационарной генеральной совокупности // Интеллектуализация обработки информации: 8-я международная конференция. Республика Кипр, г.Пафос, 17-24 октября 2010 г.: Сборник докладов. — М.: МАКС Пресс, 2010. — С. 148-152.

2. Krasotkina O.V., Mottl V.V., Turkov P.A. Bayesian Approach to the Pattern Recognition Problem in Nonstationary Environment // Pattern Recognition and Machine Intelligence / Ed. by SergeiO. Kuznetsov, DebaP. Man-dal, MalayK. Kundu, SankarK. Pal. — Vol. 6744 of Lecture Notes in Computer Science. — Springer Berlin Heidelberg, 2011. — Pp. 24-29. http: //dx.doi.org/10.1007/978-3-642-21786-9_6.

3. Турков П. А., Красоткина О. В. Построение алгоритма обучения распознаванию образов в режиме реального времени на основе вероятностного подхода к методу опорных векторов // Математические методы распознавания образов: 15-я Всероссийская конференция, г. Петрозаводск, 11-17 сентября 2011 г.: Сборник докладов. — М.: МАКС Пресс, 2011. — С. 382-385.

4. Turkov Pavel, Krasotkina Olga, Mottl Vadim. Bayesian Approach to the Concept Drift in the Pattern Recognition Problems // Machine Learning and Data Mining in Pattern Recognition / Ed. by Petra Perner. — Vol. 7376 of Lecture Notes in Computer Science. — Springer Berlin Heidelberg, 2012. — Pp. 1-10. http://dx.doi.org/10.1007/978-3-642-31537-4_1.

5. Турков П. А., Красоткина О. В., Моттль В. В. Байесовская логистическая регрессия в задаче обучения распознаванию образов при смещении концепта // Интеллектуализация обработки информации: 9-я международная конференция. Черногория, г. Будва, 2012 г.: Сборник докладов. — М.: Торус Пресс, 2012. — С. 160-163.

6. Turkov P., Krasotkina O., Mottl V. The Bayesian logistic regression in pattern recognition problems under concept drift // 2012 21st International Conference on Pattern Recognition (ICPR). — 2012. — nov. — Pp. 2976-2979.

7. Turkov Pavel, Krasotkina Olga, Mottl Vadim. Dynamic Programming for Bayesian Logistic Regression Learning under Concept Drift // Pattern Recognition and Machine Intelligence / Ed. by Pradipta Maji, Ashish Ghosh, M.Narasimha Murty et al. — Vol. 8251 of Lecture Notes in Computer Science. — Springer Berlin Heidelberg, 2013. — Pp. 190-195. http://dx.doi.org/ 10.1007/978-3-642-45062-4_26.

8. Турков П. А., Красоткина О. В., В. Моттль В. Байесовская логистическая регрессия в задаче обучения распознаванию образов при смещении решающего правила // Известия Тульского государственного университета. Технические науки. — 2013. — № 2. — С. 177-187.

9. Турков П. А., Красоткина О. В. Отбор признаков в задаче обучения распознаванию образов при смещении решающего правила // Интеллектуализация обработки информации: 10-я международная конференция. Греция, о. Крит, 4-11 октября 2014 г.: Тезисы докладов. — М.: Торус Пресс, 2014. — С. 28.

10. Турков П. А., Красоткина О. В., Моттль В. В. Отбор признаков в задаче классификации при смещении решающего правила // Известия Тульского государственного университета. Естественные науки. — 2015. — № 4. — С. 67-78.

11. Feature Selection for Handling Concept Drift in the Data Stream Classification / Pavel Turkov, Olga Krasotkina, Vadim Mottl, Alexey Sychugov // Machine Learning and Data Mining in Pattern Recognition: 12th International Conference, MLDM 2016, New York, NY, USA, July 16-21, 2016, Proceedings / Ed. by Petra Perner. — Cham: Springer International Publishing, 2016. — Pp. 614-629. http://dx.doi.org/10.1007/978-3-319-41920-6_48.

12. Отбор признаков в задаче классификации при смещении концепта для потоков данных / П. А. Турков, О. В. Красоткина, В. В. Моттль, А. А. Сычугов // Известия Тульского государственного университета. Технические науки. — 2016. — Т. 1, № 11. — С. 81-98.

13. Красоткина О. В., Моттль В.В., Турков П. А. Восстановление произвольных нестационарных зависимостей в линейном пространстве наблюдений //

Интеллектуализация обработки информации: 11-я международная конференция. Испания, Барселона, 10-14 октября 2016 г.: Тезисы докладов. — М.: Торус Пресс, 2016. — С. 110.

14. Kukar Matjaz. Drifting Concepts as Hidden Factors in Clinical Studies // Artificial Intelligence in Medicine / edited byMichel Dojat, ElpidaT. Keravnou, Pedro Barahona. — Springer Berlin Heidelberg, 2003. — Vol. 2780 of Lecture Notes in Computer Science. — Pp. 355-364. http://dx.doi.org/10.1007/ 978-3-540-39907-0_49.

15. Handling Local Concept Drift with Dynamic Integration of Classifiers: Domain of Antibiotic Resistance in Nosocomial Infections / A. Tsymbal, M. Pech-enizkiy, P. Cunningham, S. Puuronen // Computer-Based Medical Systems, 2006. CBMS 2006. 19th IEEE International Symposium on. — 2006. — Pp. 679684.

16. Online mass flow prediction in CFB boilers with explicit detection of sudden concept drift / Mykola Pechenizkiy, Jorn Bakker, Indre Zliobaite et al. // SIGKDD Explorations. — 2009. — Vol. 11, no. 2. — Pp. 109-116. http: //doi.acm.org/10.1145/1809400.1809423.

17. Castillo Gladys, Gama Joao, Breda Ana M. Adaptive Bayes for a Student Modeling Prediction Task Based on Learning Styles. // User Modeling / Ed. by Peter Brusilovsky, Albert T. Corbett, Fiorella de Rosis. — Vol. 2702 of Lecture Notes in Computer Science. — Springer, 2003. — Pp. 328-332.

18. Klinkenberg Ralf. Predicting Phases in Business Cycles Under Concept Drift // In Proc. of the Ann. Worksh. on Machine Learning of the National German Computer Science Society. — 2003. — Pp. 1-3.

19. Wind power forecasting: State-of-the-art 2009. Tech. Rep. / C. Monteiro, R. Bessa, V. Miranda et al. — ANL/DIS-10-1, Argonne National Laboratory., 2009.

20. Bremnes John Bj0rnar. Probabilistic wind power forecasts using local quantile regression // Wind Energy. — 2004. — Vol. 7, no. 1. — Pp. 47-54. http: //dx.doi.org/10.1002/we.107.

21. Bessa R.J., Miranda V., Gama J. Entropy and Correntropy Against Minimum Square Error in Offline and Online Three-Day Ahead Wind Power Forecasting // Power Systems, IEEE Transactions on. — 2009. — Nov. — Vol. 24, no. 4. — Pp. 1657-1666.

22. GNUsmail: Open Framework for On-line Email Classification / Jose M. Carmona-Cejudo, Manuel Baena-Garcia, Jose del Campo-Avila et al. // ECAI 2010 - 19th European Conference on Artificial Intelligence, Lisbon, Portugal, August 16-20, 2010, Proceedings. — 2010. — Pp. 1141-1142. http://dx.doi.org/10.3233/978-1-60750-606-5-1141.

23. Lindstrom Patrick, Delany Sarah Jane, Namee Brian Mac. Handling Concept Drift in a Text Data Stream Constrained by High Labelling Cost. // FLAIRS Conference / Ed. by Hans W. Guesgen, R. Charles Murray. — AAAI Press, 2010.

24. Bifet Albert, Frank Eibe. Sentiment Knowledge Discovery in Twitter Streaming Data // Proceedings of the 13th International Conference on Discovery Science.

— DS'10. — Berlin, Heidelberg: Springer-Verlag, 2010. — Pp. 1-15. http: //dl.acm.org/citation.cfm?id=1927300.1927301.

25. Active Learning With Drifting Streaming Data / Indre Zliobaite, Albert Bifet, Bernhard Pfahringer, Geoffrey Holmes // IEEE Trans. Neural Netw. Learning Syst. — 2014. — Vol. 25, no. 1. — Pp. 27-39. http://dx.doi.org/10.1109/TNNLS. 2012.2236570.

26. Billsus Daniel, Pazzani MichaelJ. User Modeling for Adaptive News Access // User Modeling and User-Adapted Interaction. — 2000. — Vol. 10, no. 2-3. — Pp. 147-180.

27. Recommender Systems Survey / J. Bobadilla, F. Ortega, A. Hernando, A. GutieRrez // Know.-Based Syst. — 2013. — jul. — Vol. 46. — Pp. 109132. http://dx.doi.org/10.1016/j.knosys.2013.03.012.

28. Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions // Knowledge and Data Engineering, IEEE Transactions on. — 2005. — June. — Vol. 17, no. 6.

— Pp. 734-749.

29. Netflix Prize. — http://www.netflixprize.com.

30. Koren Yehuda. Collaborative filtering with temporal dynamics //In Proc. of KDD '09. — 2009. — Pp. 447-456.

31. DARPA Grand Challenge. — http://archive.darpa.mil/grandchallenge05.

32. Stanley: The robot that won the DARPA Grand Challenge / Sebastian Thrun, Mike Montemerlo, Hendrik Dahlkamp et al. // Journal of Field Robotics. — 2006. — Vol. 23, no. 9. — Pp. 661-692. http://dx.doi.org/10.1002/rob.20147.

33. Vapnik V. Statistical Learning Theory. — John-Wiley & Sons, Inc., 1998.

34. Wiener Norbert. Extrapolation, Interpolation, and Smoothing of Stationary Time Series. — The MIT Press, 1964.

35. Шавловский М.Б. Красоткина О.В Моттль В.В. Задача обучению распознаванию образов в нестационарной генеральной совокупности // Доклады 13-й Всеросийской конференции "Математические методы распознавания образов". — Санкт-Петербург: 2007. — Pp. 226-230.

36. Learning with drift detection / J. Gama, P Medas, G. Castillo, P. Rodrigues // Proceedings of the SBIA Brazilian Symposium on Artificial Intelligence. — 2004. — Pp. 286-295.

37. Vorburger P., Bernstein A. Entropy-based Concept Shift Detection // ICDM '06. Sixth International Conference on Data Mining. — 2006. — Dec. — Pp. 11131118.

38. Widmer G., Kubat M. Learning in the presence of concept drift and hidden contexts // Machine Learning. — 1996. — Vol. 23. — Pp. 69-101.

39. Kubat Miroslav, Widmer Gerhard. Adapting to drift in continuous domains (Extended abstract) // Machine Learning: ECML-95 / edited byNada Lavrac, Stefan Wrobel. — Springer Berlin Heidelberg, 1995. — Vol. 912 of Lecture Notes in Computer Science. — Pp. 307-310. http://dx.doi.org/10.1007/3-540-59286-5_ 74.

40. Bifet A., Gavalda R. Learning from time-changing data with adaptive windowing // Proceedings of the SIAM International Conference on Data Mining. — 2007.

41. Salganicoff MARCOS. Tolerating Concept and Sampling Shift in Lazy Learning Using Prediction Error Context Switching // Artificial Intelligence Review.

— 1997. — Vol. 11, no. 1-5. — Pp. 133-155. http://dx.doi.org/10.1023/A: 1006515405170.

42. Liao Yihua, Vemuri V. Rao, Pasos Alejandro. Adaptive Anomaly Detection with Evolving Connectionist Systems // J. Netw. Comput. Appl. — 2007. — jan. — Vol. 30, no. 1. — Pp. 60-80. http://dx.doi.org/10.1016/jjnca.2005.08.005.

43. Castillo Gladys, Gama Joao, Medas Pedro. Adaptation to Drifting Concepts // Progress in Artificial Intelligence / edited byFernandoMoura Pires, Salvador Abreu. — Springer Berlin Heidelberg, 2003. — Vol. 2902 of Lecture Notes in Computer Science. — Pp. 279-293. http://dx.doi.org/10.1007/ 978-3-540-24580-3_34.

44. Real-time Data Mining of Non-stationary Data Streams from Sensor Networks / Lior Cohen, Gil Avrahami-Bakish, Mark Last et al. // Inf. Fusion. — 2008. — jul.

— Vol. 9, no. 3. — Pp. 344-353. http://dx.doi.org/10.1016/j.inffus.2005.05.005.

45. Maloof Marcus A., Michalski Ryszard S. Incremental learning with partial instance memory // Artificial Intelligence. — 2004. — Vol. 154, no. 1-2. — Pp. 95

— 126. http://www.sciencedirect.com/science/article/pii/S0004370203001498.

46. Black M., Hickey R. Learning classification rules for telecom customer call data under concept drift // Soft Computing. — 2003. — Vol. 8, no. 2. — Pp. 102-108. http://dx.doi.org/10.1007/s00500-002-0250-2.

47. Klinkenberg Ralf. Learning Drifting Concepts: Example Selection vs. Example Weighting // Intell. Data Anal. — 2004. — aug. — Vol. 8, no. 3. — Pp. 281-300. http://dl.acm.org/citation.cfm?id=1293831.1293836.

48. Street W.N., Kim Y. A streaming ensemble algorithm (SEA) for large-scale classification // Proceedings of the Knowledge Discovery and Data Mining. — ACM Press, 2001. — Pp. 377-382.

49. Mining concept-drifting data streams using ensemble classifiers / H. Wang, W. Fan, P.S. Yu, J. Han // Proceedings of the Knowledge Discovery and Data Mining / Ed. by L. Getoor, T.E. Senator, P. Domingos, C. Faloutsos. — ACM Press, 2003. — Pp. 226-235.

50. New ensemble methods for evolving data streams / Albert Bifet, Geoff Holmes, Bernhard Pfahringer et al. // Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. — Suzdal: 2009.

51. Accurate Ensembles for Data Streams: Combining Restricted Hoeffding Trees using Stacking / Albert Bifet, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer // Journal of Machine Learning Research - Proceedings Track. — 2010. — Vol. 13. — Pp. 225-240.

52. Ветров Д. П., Кропотов Д. А. Байесовские методы машинного обучения. — 2007. http://www.machinelearning.ru/wiki/images/4/43/ BayesML-2007-textbook-2.pdf.

53. Aldrich John. R. A. Fisher and the Making of Maximum Likelihood 1912-1922 // Statistical Science. — 1997. — Vol. 12, no. 3. — Pp. 162-176.

54. Bishop C. M. Pattern Recognition and Machine Learning (Information Science and Statistics). — Springer-Verlag New York, Inc. Secaucus, NJ, USA, 2006.

55. Метод релевантных потенциальных функций для селективного комбинирования разнородной информации при обучении распознаванию образов на основе байесовского подхода / Татарчук А.И., Сулимова В.В., Моттль В.В., Уиндридж Д. // Доклады 14-й Всеросийской конференции "Математические методы распознавания образов". — Суздаль: 2009. — Pp. 188-191.

56. Алгоритмы динамического программирования для оценивания моделей нестационарных сигналов / А. С. Костин, А. В. Копылов, В. В. Моттль, О. В. Красоткина // Доклады 10-й Всероссийской конференции "Математические методы распознавания образов"(ММР0-10). — Москва, 2001.

57. Красоткина О. В. Алгоритмы парносепарабельного программирования в задачах анализа нестационарных сигналов // Доклады 10-й Всероссийской

конференции "Математические методы распознавания образов"(ММРО-10). — Москва, 2001.

58. MOA: Massive Online Analysis / A. Bifet, G. Holmes, R. Kirkby, B. Pfahringer // Journal of Machine Learning Research (JMLR). — 2010. http://sourceforge.net/projects/moa-datastream/.

59. Evaluating Intrusion Detection Systems without Attacking your Friends: The 1998 DARPA Intrusion Detection Evaluation / R.K. Cunningham, R.P. Lippmann, D.J. Fried et al. // Proceedings ID'99, Third Conference and Workshop on Intrusion Detection and Response / CA: SANS Institute. — San Diego: 1999.

60. Cost-based modeling for fraud and intrusion detection: results from the JAM project / S. J. Stolfo, Wei Fan, Wenke Lee et al. // DARPA Information Survivability Conference and Exposition, 2000. DISCEX '00. Proceedings. — Vol. 2.

— 2000. — Pp. 130-144 vol.2.

61. A Detailed Analysis of the KDD CUP 99 Data Set / Mahbod Tavallaee, Ebrahim Bagheri, Wei Lu, Ali A. Ghorbani // Proceedings of the Second IEEE International Conference on Computational Intelligence for Security and Defense Applications. — CISDA'09. — Piscataway, NJ, USA: IEEE Press, 2009.

— Pp. 53-58. http://dl.acm.org/citation.cfm?id=1736481.1736489.

62. KDD Cup 1999: Computer network intrusion detection. — http://www.kdd. org/kdd-cup/view/kdd-cup-1999.

Список рисунков

1.1 Технология временного окна: (а) - постоянной длины; (б) -

переменной длины, где объекты обозначены как (в)........ 26

3.1 Графическое представление параметрического семейства плотностей распределения (3.4) двух классов объектов в двумерном пространстве (а) и в проекции на направляющий

вектор разделяющей гиперплоскости (б,в).............. 42

3.2 Логистическая функция........................ 44

8.1 Средний процент правильно распознанных объектов по всем группам в модельных данных для модели опорных векторов при различных значениях параметров .................. 94

8.2 Средний процент правильно распознанных объектов по всем группам в модельных данных для модели логистической регрессии при различных значениях параметров .......... 95

8.3 Процентное соотношение классов в данных КЭБ Сир'99..... 96

8.4 Средний процент правильно распознанных объектов по всем группам в данных КЭБ Сир'99 для модели опорных векторов

при различных значениях параметров................ 97

8.5 Средний процент правильно распознанных объектов по всем группам в данных КЭБ Сир'99 для модели логистической регрессии при различных значениях параметров .......... 98

8.6 Дисперсия признаков в данных КЭЭ Сир'99, рассчитанная при использовании модели опорных векторов

(д = 0.01, д = 0.7, б, = 1000)...................... 99

8.7 Дисперсия признаков в данных КЭБ Сир'99, рассчитанная при использовании модели логистической регрессии

(м = 1,д = 0.9,6 = 10)......................... 99

Список таблиц

1.1 Компоненты временного ряда..........................................23

8.1 Результаты оценивания параметров решающего правила для модельных данных ......................................................86

8.2 Экспериментальные результаты: вектор дисперсий..................86

8.3 Базовые признаки в данных КЭБ Сир'99............................89

8.4 Трафиковые признаки в данных КЭБ Сир'99........................90

8.5 Признаки содержимого в данных КЭБ Сир'99......................91

8.6 Результаты оценивания параметров решающего правила для данных КЭБ Сир'99....................................................93

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.