Модели адаптивного поведения на базе эволюционных и нейросетевых методов тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат физико-математических наук Мосалов, Олег Петрович

  • Мосалов, Олег Петрович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2007, Москва
  • Специальность ВАК РФ05.13.18
  • Количество страниц 110
Мосалов, Олег Петрович. Модели адаптивного поведения на базе эволюционных и нейросетевых методов: дис. кандидат физико-математических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Москва. 2007. 110 с.

Оглавление диссертации кандидат физико-математических наук Мосалов, Олег Петрович

Введение.

Глава 1. Модели адаптивного поведения.

1.1. Обзор направления исследований «Адаптивное поведение».

1.2. Метод обучения с подкреплением. Метод SARSA.

1.3. Искусственные нейронные сети. Метод обратного распространения ошибки.

1.4. Основные нейросетевые парадигмы.

1.5. Эволюционное моделирование.

1.6. Нейроэволюционный подход.

1.7. Модели адаптивных автоматов M.JI. Цетлина.

1.8. Проект «Животное» М.М. Бонгарда.

1.9. Модели на основе теории функциональных систем.

Глава 2. Исследование моделей нейросетевых адаптивных критиков.

2.1. Нейросетевые адаптивные критики.

2.2. Процессы обучения в адаптивных критиках.

2.2.1. Агент на основе Q-критика.

2.2.2. Агент на основе V-критика.

2.2.3. Сравнение процессов обучения для метода SARSA и V-критика.

2.3. Взаимодействие между обучением и эволюцией.

2.3.1. Сравнение различных режимов настройки нейронных сетей.

2.3.2. Эффект Болдуина.

2.3.3. Специфика работы блока Модель в схеме V-критика.

2.4. Сопоставление с поведением живых организмов.

2.5. Выводы по главе 2.

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Модели адаптивного поведения на базе эволюционных и нейросетевых методов»

Актуальность работы

Работа посвящена исследованиям нейросегевых схем управления автономных адаптивных агентов.

Работы по моделям адаптивного поведения были начаты в 1950-1970-х годах, в нашей стране их вели M.JI. Цетлин, М.М. Бонгард, Д.А. Поспелов и другие авторы. В настоящее время за рубежом такие исследования активно ведутся в рамках направления «Адаптивное поведение». Основной подход этого направления - исследование архитектур, принципов и механизмов функционирования искусственных «организмов», которые могут приспосабливаться к переменной внешней среде. Эти организмы называются аниматами (от англ. animal + robot = animat) или агентами.

Направление «Адаптивное поведение» рассматривается как бионический подход к исследованиям искусственного интеллекта. В нем особое внимание уделяется методам самообучения, обеспечивающим автономное существование аниматов. При этом широко используются современные компьютерные методы вычислительного интеллекта (computational intelligence): искусственные нейронные сети, эволюционное моделирование, метод обучения с подкреплением.

В настоящее время активные работы в рамках направления «Адаптивное поведение» ведутся такими зарубежными исследователями, как Ж.-А. Мейер, Р. Пфейфер, С. Нолфи, Р. Брукс, Дж. Эдельман. В нашей стране моделирование адаптивного поведения ведут только немногие группы исследователей под руководством В.А. Непомнящих, А.А. Жданова, А.И. Самарина, JI.A. Станкевича.

Одной из перспективных работ в рамках направления исследований «Адаптивное поведение» является проект «Мозг анимата», который ориентирован на формирование иерархической системы управления анимата, отдельными элементами которой могут выступать нейросетевые блоки, в частности нейросетевые адаптивные критики.

Нейросетевые адаптивные критики являются одним методов теории обучения с подкреплением. Основанные на них системы управления являются достаточно интеллектуальными и способны обеспечивать автономное адаптивное поведение. Их использование возможно как для управления отдельными искусственными организмами, так и в качестве элементов более сложных систем. Известно применение нейросетевых адаптивных критиков при решении ряда задач, однако этот метод все еще недостаточно хорошо изучен и требует дополнительных исследований.

В последнее время активно исследуются нейроэволюционные .методы -рассмотрение популяций взаимодействующих между собой и средой агентов на основе нейронных сетей. При этом используются такие биологически инспирированные принципы, как наследственность, изменчивость и естественный отбор.

Методы теории обучения с подкреплением, в том числе нейросетевые адаптивные критики, и нейроэволюционные методы решают одну и ту же задачу - оптимизацию нейронных сетей - различными способами: первые в течение жизни отдельного агента, вторые в процессе эволюции популяции.

Одновременное применение этих двух подходов может заметно увели чип, адаптивные способности автономных агентов, функционирующих в переменных, плохо определенных средах. В этой связи необходимо детально исследовать процессы самообучения в системах управления автономных агентов, проанализировать эволюционные процессы в популяциях таких агентов и одновременное их воздействие на адаптивные свойства. Такой анализ необходимо провести на практически важных примерах.

Настоящая работа посвящена решению этих задач. Разрабатываемые и исследованные в диссертации модели могут быть использованы как для описания и понимания механизмов адаптации в живых организмах, так и при разработках искусственных автономных систем.

На основании изложенного тема диссертации является актуальной. Цель и задачи работы

Целью диссертационной работы является исследование процессов формирования систем управления автономных агентов, способных обеспечить адаптивное поведение в сложной, изменяющейся со временем внешней среде. Для достижения поставленной цели было необходимо решить следующие задачи:

1. Исследование математических моделей систем управления на базе нейросетевых адаптивных критиков и детальное изучение происходящих в них процессов обучения. Анализ адаптивных свойств поведения автономных агентов, которое обеспечивается такими системами управления.

2. Построение и исследование математической модели многоагентной системы автономных адаптивных агентов. Анализ процессов оптимизации систем управления агентов посредством обучения или эволюционной настройки, а также их одновременного использования. Изучение особенностей взаимодействия индивидуального обучения и эволюционной настройки.

3. Разработка методик построения классифицирующих систем на основе исследованных методов путем одновременного применения обучения и эволюционной настройки. Разработка комплекса программ для реализации этих методик.

4. Анализ возможностей применения нейроэволюционных методов на примере задачи классификации типов инсультов.

Научная новизна

1. Выяснено, что на основе нейросетевых адаптивных критиков могут быть построены системы управления, обеспечивающие свойства поведения агентов, аналогичные тем, которые наблюдаются у животных, например, инерционность при смене тактик поведения и игнорирование мелких деталей.

2. Разработана и исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем обучения и эволюционной настройки. Показано, что совместное применение обучения и эволюционной настройки обеспечивает более эффективную оптимизацию систем управления автономных агентов, нежели обучение или эволюционная настройка в отдельности.

3. Продемонстрировано, что при совместном использовании обучения и эволюционной настройки происходит процесс генетической ассимиляции приобретенных навыков, так называемый эффект Болдуина.

4. Предложена и исследована нейроэволюционная методика построения классифицирующей нейросетевой системы для случая, когда размер обучающей выборки мал и различные классы представлены в ней неравномерно. Показано, что с помощью этой методики может быть построена система классификации типов инсультов, обеспечивающая нулевую ошибку распознавания.

Практическая ценность

1. Разработаны алгоритмы построения нейросетевых систем управления автономных агентов на основании взаимодействия эволюционной настройки и индивидуального обучения.

2. Построена нейросетевая классифицирующая система для распознавания типов инсультов.

Методы исследования:

В работе использовались методы математического моделирования, теории искусственных нейронных сетей, эволюционного моделирования, теории обучения с подкреплением.

На защиту выносятся:

1. Результаты исследований процессов обучения в моделях систем управления агентов на основе нейросетевых адаптивных критиков. Результаты исследования адаптивных свойств автономных агентов, сопоставление этих свойств с простыми адаптивными свойствами живых организмов.

2. Математическая модель многоагентной системы, в которой адаптация агентов происходит путем эволюционной оптимизации и индивидуального обучения. Сопоставительный анализ эффективности трех вариантов настройки систем управления агентов посредством а) обучения, б) эволюционной настройки, в) одновременного использования обучения и эволюционной настройки.

3. Комплекс программ, реализующий методику построения нейроэволюционной классифицирующей системы путем одновременного применения обучения и эволюционной настройки.

4. Классифицирующая система распознавания типов инсульта для случая, когда обучающая выборка имеет малый объем и представители различных классов представлены в ней неравномерно.

Апробация работы и научные публикации

Основные результаты диссертационной работы были доложены и обсуждены на следующих научных конференциях: Artificial Neural Networks: Biological Inspirations - ICANN 2005 (Варшава, 2005), International Joint Conference on Neural Networks - IJCNN 2005 (Монреаль, 2005), The Ninth International Conference on the Simulation of Adaptive Behavior (Рим, 2006), V-VIII Всероссийские научно-технические конференции

Нейроинформатика» (Москва, МИФИ, 2003, 2004, 2005, 2006), II-й Международный научно-практический семинар «Интегрированные модели и мягкие вычисления в искусственном интеллекте» (Коломна, 2003), Международная научно-техническая конференция «Интеллектуальные системы, IEEE AIS'03» (Геленджик, 2003), Всероссийская научная конференция «Методы и средства обработки информации» (Москва, 2003, 2004), XLVI, XLVII научные конференции МФТИ «Современные проблемы фундаментальных и прикладных наук» (Долгопрудный, МФТИ, 2003, 2004), Международная научно-техническая конференция «Искусственный интеллект. Интеллектуальные и многопроцессорные системы» (Кацивели, 2004), Девятая национальная конференция по искусственному интеллекту с международным участием (Тверь, 2004), Казанский городской семинар «Методы моделирования» (Казань, 2004).

Основные результаты диссертации опубликованы в 23 работах, в том числе 2 статьи в рецензируемых журналах из списка изданий, рекомендованных ВАК, 2 статьи в зарубежных научных периодических изданиях, 17 статей в трудах научных конференций (в том числе 4 - в трудах международных конференций), 1 препринт, 1 статья в сборнике:

1. Red'ko V.G., Mosalov О.Р., Prokhorov D.V. A Model of Evolution and Learning // Neural Networks - 2005 - Vol. 18, N 5-6 - P. 738-745.

2. Мосалов О.П., Прохоров Д.В., Редько В.Г. Самообучающиеся агенты на основе нейросетевых адаптивных критиков // Искусственный интеллект -2004-Т. 3-С. 550-560.

3. Mosalov О.P., Prokhorov D.V., Red'ko V.G. Influence of neural network structure on cooperation of learning and evolution // Optical Memory and Neural Networks - 2006 - Vol. 15, N 4 - P. 180-184.

4. Mosalov O.P., Rebrova O.Yu., Red'ko V.G. Neuroevolutionary methods of stroke diagnosis // Optical memory and Neural networks - 2007 - Vol. 16, N 2 P. 81-90.

5. Red'ko V.G., Mosalov O.P., Prokhorov D.V. Investigation of Evolving Populations of Adaptive Agents // Artificial Neural Networks: Biological Inspirations - ICANN 2005, 15th International Conference, Warsaw, Poland, September 11-15, Proceedings, Part I - 2005 - P. 337-342.

6. Red'ko V.G., Mosalov O.P., Prokhorov D.V. A model of Baldwin effect in populations of self-learning agents // International Joint Conference on Neural Networks, IJCNN 2005, Proceedings, Montreal, Canada - 2005 - P. 1355-1360.

7. Red'ko V.G., Anokhin K.V., Burtsev M.S., Manolov A.I., Mosalov O.P., Nepomnyashchikh V.A., Prokhorov D.V. Project «Animat Brain»: Designing the Animat Control System on the Basis of the Functional Systems Theory // The

Ninth International Conference on the Simulation of Adaptive Behavior (SAB'06), CNR, Roma, Italy, Third Workshop on Anticipatory Behavior in Adaptive Learning Systems (ABiALS 2006), Proceedings - 2006, RR 0037164265.

8. Мосалов О.П., Прохоров Д.В., Редько В.Г. Самообучающиеся агенты на основе нейросетевых адаптивных критиков // Материалы международной научно-технической конференции «Искусственный интеллект. Интеллектуальные и многопроцессорные системы». - Таганрог: Изд-во ТРТУ -2004-Т. 1 - С. 413-417.

9. Мосалов О.П., Бурцев М.С., Митин Н.А., Редько В.Г. Модель многоагентной Интернет-системы, предназначенной для предсказания временных рядов // V Всероссийская научно-техническая конференция «Нейроинформатика-2003». Сборник научных трудов. - М.: МИФИ - 2003 -Т. 1-С. 177-183.

10. Мосалов О.П., Редько В.Г., Непомнящих В.А. Модель поискового поведения анимата // Препринт Института прикладной математики им. М.В. Келдыша РАН - 2003 - N 19 - 13 с.

11. Мосалов О.П., Редько В.Г., Бурцев М.С., Митин И.А. Модель эволюционирующей многоагентной Интернет-системы // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник трудов Н-го Международного научно-практического семинара - М.: Физматлит 2003-С. 217-221.

12. Мосалов О.П., Непомнящих В.А., Редько В.Г. Модель поискового поведения, основанная на биологических аналогиях // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник трудов Н-го Международного научно-практического семинара - М.: Физматлит -2003 - С. 222-227.

13. Мосалов О.П., Редько В.Г. Модель многоагентной Интернет-системы // Сб. трудов Международной научно-технической конференции «Интеллектуальные системы, IEEE AIS'03» - М.: Физматлит - 2003 - Т. 1 -С. 434-436.

14. Редько В.Г., Мосалов О.П., Митин Н.А., Бурцев М.С. Многоагентные Интернет-системы - исследование процессов обучения и самоорганизации // Сб. трудов Первой Всероссийской научной конференции «Методы и средства обработки информации» - М.: МГУ - 2003 - С. 280-285.

15. Редько В.Г., Сохова З.Б., Мосалов О.П., Нагоев З.В. Естественная модель искусственной жизни // Труды XLVI научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук». Часть I. Радиотехника и кибернетика - Москва - Долгопрудный: МФТИ - 2003 Т. 1 -С. 31-33.

16. Мосалов О.П., Прохоров Д.В., Редько В.Г. Модели принятия решений на основе нейросетевых адаптивных критиков // Девятая национальная конференция по искусственному интеллекту с международным участием. Труды конференции - М.: Физматлит - 2004 - Т. 3 - С. 1156-1163.

17. Мосалов О.П., Редъко В.Г., Прохоров Д.В. Модель агента-брокера на основе нейросетевых адаптивных критиков // Сб. трудов Международной научно-технической конференции «Интеллектуальные системы, ШИН AIS'03»-М.: Физматлит-2004-Т. 1 - С. 395-399.

18. Попов Е.Е., Редъко В.Г., Мосалов О.П., Непомнящих В.А. Модель поискового поведения анимата на основе простой схемы переключения тактик поисковой активности // Труды XLVII научной конференции МФТИ «Современные проблемы фундаментальных и прикладных наук», Часть I, Радиотехника и кибернетика - М.: МФТИ - 2004 - С. 77-78.

19. Мосалов О.П. Модель эволюции системы агентов-брокеров // VI Всероссийская научно-техническая конференция «Нейроинформатика-2004» -М.: МИФИ-2004-Т. 2-С. 138-144.

20. Редъко В.Г., Мосалов О.П. Простые системы управления на основе нейросетевых адаптивных критиков // Эволюционное моделирование (иод ред. В.А. Райхлина). Труды Казанского городского семинара «Методы моделирования», Вып. 2 - Казань: Издательство «Фен» («Наука») - 2004 -С. 92-111.

21. Мосалов О.П., Прохоров Д.В., Редъко В.Г. Модель взаимодействия обучения и эволюции в многоагентных системах // Методы средства обработки информации. Труды Второй Всероссийской научной конференции - М.: МГУ - 2005 - С. 107-112.

22. Мосалов О.П., Редъко В.Г. Модель эволюционной ассимиляции приобретенных навыков в нейросетевых системах управления адаптивных агентов // VII Всероссийская научно-техническая конференция «Нейроинформатика-2005» - М.: МИФИ - 2005 - С. 210-217.

23. Мосалов О.П., Прохоров Д.В., Редъко В.Г. Сравнение эволюции и обучения как методов адаптации агентов // VIII Всероссийская научно-техническая конференция «Нейроинформатика-2006» - М.: МИФИ - 2006 -С. 201-208.

Структура и объем диссертации

Диссертация изложена на 110 страницах, состоит из введения, четырех глав, заключения и списка использованных источников, насчитывающего 100 наименований.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Мосалов, Олег Петрович

3.4. Выводы по главе 3

1. На основе одновременного применения обучения и эволюционной настройки предложена общая методика построения нейросетевой классифицирующей системы для случая, когда обучающая выборка имеет малый объем и классы представлены в ней неравномерно.

2. Построена нейросетевая классифицирующая система, обеспечивающая нулевую ошибку классификации.

3. Проведено исследование особенностей работы построенной классифицирующей системы.

Глава 4. Модели поискового поведения на основе спонтанной активности

В этой главе рассматриваются модели аниматов (агентов), которые могут имитировать поисковое поведение животных. Такой тип поведения характерен для организмов, умеющих перемещаться в пространстве.

4.1. О поисковом поведении

Несмотря на свою простоту, поисковое поведение заслуживает анализа по следующим причинам: поисковое поведение низших организмов является прообразом всех других форм поведения, в том числе и интеллектуального поведения высших животных.

В работе [97] исследовались механизмы ориентации самцов тутового шелкопряда в струе феромона самки. Самец воспринимает запах с помощью рецепторов, расположенных на симметричных антеннах. И, казалось бы, что самцу нужно двигаться прямо по градиенту феромона. Но как показало компьютерное моделирование, такая стратегия не соответствует реальному поведению бабочек. Ориентация самцов включает в себя не только повороты в сторону наибольшего раздражения, но и спонтанные, независимые от раздражения зигзаги при движении в струе запаха, а также петли, описываемые самцами, вышедшими за пределы струи. Можно сказать, что поиск источника запаха включает в себя две чередующиеся «инерционные» тактики: а) устойчивое движение в выбранном направлении, 2) устойчивое повторение поворотов, приводящее к выбору нового направления движения.

Интуитивно понятно, что чередование этих тактик действительно может быть выгодно. Движение насекомых против ветра или по градиенту в ответ на запах феромона или пищи, в принципе, позволяет найти источник запаха. Однако запах в турбулентном потоке воздуха распределен не равномерно, а отдельными «облаками». Насекомое может перестать воспринимать запах, но все же будет некоторое время продолжать движение против ветра, как бы предполагая, что вслед за первым облаком появится и второе. Если новое-облако не встречается, то можно предположить, что насекомое отклонилось от правильного направления, и оно меняет тактику: движется зигзагами поперек ветра. Это помогает вновь найти струю запаха, если насекомое действительно потеряло направление. Разумеется, насекомому не известно заранее, в каком случае оно просто вышло из облака, но движется в правильном направлении, а в каком случае направление потеряно. Однако чередование указанных тактик позволяет в большинстве случаев достигать цели.

Модель чередования указанных двух тактик поиска (устойчивого движения в избранном направлении и выбора/поиска нового направления), была предложена и исследована в работе [97]. Эта модель предлагает систему управления, в которой переключение между тенденциями движения анимата прямо и поворотами направо и налево обеспечивается с помощью нелинейного стохастического процесса (а именно, с помощью логистического отображения). Эта модель качественно соответствует поведению с чередованием указанных двух тактик, однако, используемое в ней логистическое отображение не позволяет в явном виде представить механизм переключения между двумя поисковыми тактиками. В связи с эт им в настоящей работе предлагается модель поискового поведения, которая явно включает в себя такой механизм переключения: в каждый момент времени анимат выбирает одно из двух решений: а\ - двигаться в выбранном направлении, либо а2 - изменить направление движения случайным образом. Переход от одного типа решения к другому моделируется с помощью определенного автомата (аналогичного автомату с линейной тактикой МЛ. Цетлина [22]). Роль автомата в нашей модели - обеспечение инерционност и переключения между указанными типами решений, характерной для поискового поведения животных и, по-видимому, существенной для адаптивного поиска. Для определенности мы считаем, что анимат ищет максимум функции двух переменных, например, максимум распределения пищи.

4.2. Модель анимата, осуществляющего поисковое поведение

Ниже рассматривается модель анимата, поведение которого имеет поисковый характер, на примере анимата, ищущего глобальный максимум многоэкстремальной функции двух переменных.

Общая схема модели

1. В пространстве (х,у) существует определенное стационарное распределение J{x,y).

2. Анимат может двигаться в двумерном пространстве (х,у). Задача анимата -поиск максимума функции J{x,y).

3. Анимат функционирует в дискретном времени, t = 0,1,2,.

4. Анимат может оценивать изменение текущего значения функции f{x,y) по сравнению с предыдущим тактом времени

Процесс функционирования анимата. В каждый такт времени t анимат совершает движение, при котором его координаты изменяются следующим образом: x(t+\) = x(t) + &x(t+\), т =М -At-1) =AAt\y(t))

4.1) y(t+\)=y(t) + Ay(t+l).

4.2)

На вход системы управления агента поступают значения АД/), Av(/), Av(/), на выходе формируются значения Дх(/+1), Ау(/+1).

Система управления содержит автомат (подобный автоматам с линейной тактикой МЛ. Цетлина [22]), который обеспечивает инерционность в принятии решения аниматом. Автомат имеет 2п состояний, номера состояний равныj = -п, .,-2,-1, 1,2, ., п.

Если j> О, то анимат принимает решение а\\ двигаться в выбранном направлении, при этом анимат смещается на величину RQ:

Ах(/+1) = R0 cospo,

Ay(t+l) = R0sm(p0, (4.3) где щ = arctg(Ay(/)/A;c(/)) - угол, характеризующий направление движения в текущий такт времени t.

Если j < 0, то анимат принимает решение аг\ изменить направления движения случайным образом, при этом анимат смещается на величину r(l, а направление его движения случайно варьируется:

Ах(/+1) = г0 cos^>,

Ау(/+1) = го sin^ , (4.4) где (р = (ро + w, w - нормально распределенная случайная величина N(0, w()). Параметр w0 ~ ж/4.

Схема системы управления анимата. Для рассматриваемой модели была использована модифицированная по сравнению с [22] схема автомата, чтобы обеспечить его адаптивную работу с учетом специфики режима случайного поиска (при выборе действия а2). Схема автомата представлена на рис. 4.1. Переходы между состояниями при поощрении и наказании показаны сплошными и штриховыми стрелками соответственно. ~ о о о о о о j -3-2-1 1 2 3

Рис. 4.1. Схема модифицированного автомата с линейной тактикой. / -номер состояния автомата, п- 3.

Правая область данного автомата совпадает с таковой в обычном ав гома ге [22]. А в левой области переходы между состояниями «поменяли знак»: для обычного автомата при поощрении/наказании переходы происходят влево/вправо, а для нашего модифицированного автомата - вправо/влево, соответственно.

Качественно поведение анимата, в систему управления которого входит рассматриваемый автомат, изложено ниже. Если выбранное направление движения анимата в течение некоторого времени правильное, т.е. ДД/) > 0 и автомат поощряется, то автомат переходит из 1-го состояния во 2-ое и так далее, до и-го. После того, как движение в данном направлении приводит к неудаче, Af[t) < 0, автомат совершает обратный процесс: из п-го состояния в (rc-l)-oe и т.д., причем все это время продолжается движение в ранее выбранном направлении. В результате этого небольшие локальные ухудшения не могут сразу же сбить анимата с «верного пути». После достижения (-1)-го состояния анимат начинает совершать случайные повороты. Если поворот неудачный, то номер состояния продолжает уменьшаться. В итоге, анимат делает несколько поворотов, прежде чем найдет нужное направление в (-1)-ом состоянии и вновь перейдет к движению в новом выбранном направлении.

Отметим, что на рис. 4.1 представлен детерминированный автомат. Также был рассмотрен и аналогичный вероятностный автомат. Для вероятностного автомата, характеризуемого вероятностью р, переходы осуществляются с вероятностью р так же, как для детерминированного автомата, и противоположные переходы с вероятностью 1-р (\>р> 0,5). При р~ \ автомат детерминированный, при р-0,5 переходы между соседними состояниями автомата происходят полностью стохастично.

Для детального анализа поискового поведения анимата в рамках изложенной модели была создана компьютерная программа на языке Java и была выполнена серия компьютерных экспериментов.

4.3. Результаты моделирования

При моделировании оптимизируемая функция fix, у) задавалась в единичном квадрате 0<х,у< 1. При этом в некотором количестве опорных точек значения функции задавались случайно (в интервале 0 <fix, у) < 1), а для произвольных значений х и у значения функции fix,у) определялись путем непрерывной интерполяции по опорным точкам.

При расчетах из разумных соображений был выбран опорный вариан т, для которого параметры составляли: Rq = 0,001, г0 = 0,001, w0 = л/4 , п = Ъ,р = 1.

Расчет проводился как для опорного варианта, так и для наборов параметров, в которых ряд заданных параметра отличался от значений опорного варианта. Тем самым проверялось влияние того или иного параметра на характер поискового поведения анимата.

Пример поведения анимата представлен на рис. 4.2. Этот пример иллюстрирует, что перемещение анимата состоит из долгих блужданий в окрестностях локальных максимумов оптимизируемой функции fix,у) (в окрестностях точек с координатами (0,55,0,45) и (0,88,0,45)) и кратковременных перемещений между максимумами. г •— i ййи ч

0.4 0.5 0.6 07 0.8 0.9 1 X

Рис. 4.2. Пример поискового поведения анимата. Исходное положение анимата - точка с координатами (0,5, 0,5).

4.4. Результаты моделирования

1. Построена модель анимата, система управления которого содержит конечный автомат. Этот анимат демонстрирует поведение, которое качественно соответствует поисковому поведению животных, и обладает свойством чередования двух тактик - периодов движения в выбранном направлении и серий случайных поворотов.

2. Поведение анимата обладает свойствами инерционности и игнорирования мелких деталей, что позволяет при оптимизации многоэкстремальной функции находить глобальный экстремум.

Заключение

В диссертационной работе получены следующие основные результаты:

1. Предложены и исследованы новые модели систем управления автономных агентов на основе нейросетевых адаптивных критиков. Проведен анализ процессов обучения в этих моделях. Показано, что подобные системы управления способны обеспечить адаптивное поведение автономных аген тов. В поведении таких агентов обнаружены нетривиальные свойства, аналогичные свойствам поведения живых организмов, такие как инерционность при смене стратегии поведения, игнорирование мелких деталей и т.п.

2. Исследована математическая модель многоагентной системы, в которой адаптация агентов происходит путем индивидуального обучения и эволюционной оптимизации. Показано, что совместное применение обучения и эволюции более эффективно в поиске оптимальной стратегии поведения, чем эволюция или обучение по отдельности. Обнаружено, что при таком взаимодействии обучения и эволюции имеет место генетическая ассимиляция приобретенных признаков, т.е. эффект Болдуина.

3. Разработан комплекс программ, реализующий методику построения классифицирующей системы на основании исследованных методов путем одновременного применения обучения и эволюционной нас тройки.

4. Построена классифицирующая система распознавания типов инсультов для случая малого объема обучающей выборки и неравномерного распределения представителей различных типов в ней.

Список литературы диссертационного исследования кандидат физико-математических наук Мосалов, Олег Петрович, 2007 год

1. Meyer J.A., Wilson S.W. (Eds) From animals to animats // Proceedings of the First International Conference on Simulation of Adaptive Behavior The MIT Press: Cambridge, Massachusetts, London, England, 1990.

2. Donnart J.Y., Meyer J.A. Learning reactive and planning rules in a motivationally autonomous animat // IEEE Transactions on Systems, Man, and Cybernetics, Part В Cybernetics, 1996-V. 26, N. 3, P.381-395.

3. Сайт AnimatLab: http://animatlab.lip6.fr/index.en.html

4. Сайт AI Laboratory of Zurich University: http://www.iri.unizh.ch/groups/ailah/

5. Pfeifer R., Scheier C. Understanding Intelligence MIT Press, 1999.

6. Сайт Laboratory of Artificial Life and Robotics: http://gral.ip.rm.cnr.it/

7. Nolfi S., Floreano D. Evolutionary Robotics: The Biology, Intelligence, and Technology of Self-Organizing Machines. Cambridge, MA: MIT Press/Bradford Books, 2000 384 p.

8. Сайт MIT Computer Science and Artificial Intelligence Laboratory: http://www.csail.mit.edu/index.php

9. Brooks R.A. Cambrian Intelligence: The Early History of the New AI. MIT Press, 1999.

10. Сайт Neuroscience Institute: http://www.nsi.edu/

11. Krichmar J.L., Edelman G.M. Machine psychology: autonomous behavior, perceptual categorization and conditioning in a brain-based device // Cerebral Cortex 2002 - V. 12 - P. 818-830.

12. Krichmar J.L., Edelman G.M. Brain-based devices: intelligent systems based on principles of the nervous system // In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Las Vegas, NV 2003 - P. 940-945.

13. Krichmar J.L., Seth A.K., Nitz D.A., Fleischer J.G., Edelman G.M. Spatial navigation and causal analysis in a brain-based device modeling cortical-hippocampal interactions // Neuroinformatics 2005 - V.3, N 3 - P. 197-221.

14. Непомнящих В.А. Поиск общих принципов адаптивного поведения живых организмов и аниматов // Новости искусственного интеллек та 2002 -N. 2-С. 48-53.

15. Непомнящих В.А. Как животные решают плохо формализуемые задачи поиска // Синергетика и психология: Тексты. Выпуск 3: Когнитивные процессы / Ред. Аршинов В.И., Трофимова И.Н., Шендяпин В.М. М.: Когито-Центр-2004-С. 197-209.

16. Nepomnyashchikh V.A., Podgornyj К.A. Emergence of adaptive searching rules from the dynamics of a simple nonlinear system // Adaptive Behavior 2003 - V.11,N4-P. 245-265.

17. Жданов А.А. Метод автономного адаптивного управления // Изв. РАН. Теория и системы управления 1999 -N 5 - С. 127-134.

18. Жданов А.А. О методе автономного адаптивного управления // VI Всероссийская научно-техническая конференция «Нейроинформатика-2004». Лекции по нейроинформатике. Часть 2 М.: МИФИ - 2004 - С. 15-56.

19. Станкевич J1.A. Нейрологические средства систем управления интеллектуальных роботов // VI Всероссийская научно-техническаяконференция «Нейроинформатика-2004». Лекции по нейроинформатике. Часть 2-М.: МИФИ 2004 - С. 57-110.

20. Цетлин M.JI. Исследования по теории автоматов и моделирование биологических систем. М.: Наука, 1969 - 316 с.

21. Варшавский В.И., Поспелов Д.А. Оркестр играет без дирижера М.: Наука, 1984.

22. Бонгард М.М., Лосев И.С., Смирнов М.С. Проект модели организации поведения «Животное» // Моделирование обучения и поведения - М.: Наука, 1975-С. 152-171.

23. Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения -М.: Наука, 1987.

24. Поспелов Д.А., Пушкин В.Н. Мышление и автоматы М.: Изд-во Советское радио, 1972.

25. Holland J.H. Adaptation in Natural and Artificial Systems. Ann Arbor, MI: The University of Michigan Press, 1975 (1st edn). Boston, MA: MIT Press., 1992 (2nd edn).

26. Курейчик B.M. Генетические алгоритмы и их применение Таганрог, ТРТУ, 2002.

27. Емельянов В.В., Курейчик В.М., Курейчик В.В. Теория и практика эволюционного моделирования-М.: Физматлит, 2003.

28. Редько В.Г. Эволюционная кибернетика-М.: Наука, 2001 156 с.

29. Holland J.H., Holyoak K.J., Nisbett R.E., Thagard P. Induction: Processes of Inference, Learning, and Discovery Cambridge, MA: MIT Press, 1986.

30. Sutton R., Barto A. Reinforcement Learning: An Introduction Cambridge: MIT Press, 1998.

31. Learning and Approximate Dynamic Programming: Scaling Up to the Real World (Edited by Jennie Si, Andrew Barto, Warren Powell, and Donald Wunsch), IEEE Press and John Wiley & Sons, 2004.

32. Werbos P.J. Approximate dynamic programming for real-time control and neural modeling // In: Handbook of Intelligent Control, White and Sofgc, Eds., Van Nostrand Reinhold 1992 - P. 493-525.

33. Мак-Каллок У.С., Питтс У. Логическое исчисление идей, относящихся к нервной активности // Автоматы, под ред. Шеннона К.Э. и Маккарги Дж. М. -ИЛ, 1956-С. 362-384.

34. Розенблат Ф. Принципы нейродинамики. Перцептроны и теория механизмов мозга Мир, 1965.

35. Brindley G.S., Lewin W.S. The sensations produced by electrical stimulation of the visual cortex // J Physiol 1968 - N 196(2) - P. 479-493.

36. Marr D. Simple Memory: A Theory for Archicortex // Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences -V. 262,N841 1971 -P. 23-81.

37. Kohonen T. Self-organized formation of topologically correct feature maps // Biol. Cybern 1982 - V. 43, N 1 - P. 56-69.

38. Kohonen T. Self-Organising and Associative Memory. Berlin, Springer Verlag, 1995.

39. Palm G. On associative memory // Biol. Cybern. 1980 - N 36 - P. 19-31.

40. Palm G., Sommer F.T. Associative data storage and retrieval in neural networks // E. Domany, J.L. van Hemmen, K.S. (Eds.), Models of Neural Networks III, Springer, New York 1995 - P. 79-118.

41. Willshaw D.J., Buneman O.P., Longuet-Higgins H.C. Non-holographic associative memory // Nature 1969 - N 222 - P. 960-962.

42. Dunin-Barkowski W.L. Principles of Neural Networks. I. Memory as the process of information transmission // Biofizika 1975 - V. 20, N 6 - P. 1091.

43. Dunin-Barkowski W.L. Multi-neuron structures: theory and experiments // Uspekhi Fizicheskikh Nauk (Soviet Physics Progress) 1986 - V. 150, N 2 P. 321-323.

44. Dunin-Barkowski W.L. Neural Networks for Associative Memory // «Modeling of Excitable Structures» Pushchino, Moscow Region - 1975 - P. 90141.

45. Hopfield J.J. Neural networks and physical systems with emergent collective computational abilities // Proc. Natl. Acad. Sci. USA 1982 - V. 79, N 8 -P. 2554-2558.

46. Hopfield J.J. Neurons with gradual response have collective computational properties like those of two-state neurons // Proc. Natl. Acad. Sci. USA 1984 -V. 81, N 10-P. 3088-3092.

47. Amari S. Mathematical foundations of neurocomputing // Proceedings of the IEEE 1990 - V. 78, N 9 - P. 1443-1462.

48. Amari S. Dualistic geometry of manifold of higher-order neurons // Neural networks 1991 -V. 4-P. 443-451.

49. Фролов A.A., Муравьев И.П. Нейронные модели ассоциативной памяти М.: Наука, 1987- 160 с.

50. Фролов А.А., Муравьев И.П. Информационные характеристики нейронных сетей М.: Наука, 1988 - 160 с.

51. Rumelhart D.E., Hinton G.E., Williams R.G. Learning representation by back-propagating error // Nature 1986 - V. 323, N 6088 - P. 533-536.

52. Уоссермен Ф. Нейрокомпьютерная техника. Теория и практика М.: Мир, 1972-238 с.

53. Фомин С.В., Беркенблит М.Б. Математические проблемы в биологии -М.: Наука, 1973-200 с.

54. Минский М., Пейперт С. Персептроны Мир, 1971.

55. Carpenter G.A., Grossberg S. A massively parallel architecture for selforganizing neural pattern recognition machine // Comput. Vision, Graphics, Image Process 1987 - V. 37, N 1 - P. 54-115.

56. Grossberg S. Neural Networks and Natural Intelligence // MIT Press, Cambridge, MA, 1988.

57. Anderson J.R., Bower G.H. Human associative memory // Washington, DC: Winston & Sons, 1973 524 p.

58. Hopfield J.J., Feinstein D.I., Palmer R.G. Unlearning has a stabilizing effect in collective memories. Nature 1983 - N 304 - P. 158.

59. Fukushima K. Neocognitron: A hierarchical neural network capable for visual pattern recognition // Neural networks 1988 - V. 1, N 2 - P. 119-130.

60. Hopfield J.J., Tank D.W. Computing with neural circuits: A model // Science -1986 V. 233, N 464 - P. 625-633.

61. Hebb D.O. The organization of behavior. A neuropsychological theory N.Y.: Wiley & Sons, 1949-355 P.

62. Тьюринг А. Может ли машина мыслить? М.:ГИФМЛ, 1960.

63. Koza J. Genetic Programming II: Automatic Discovery of Reusable Subprograms The MIT Press, 1994.

64. Whitley D. An Overview of Evolutionary Algorithms // Journal of Information and Soft-ware Technology 2001 - N 43 - P. 817-831.

65. Evolutionary Computation 1: Basic Algorithms and Operators / Back Т., Fogel D.B., Michalewicz Z. (Eds.). Bristol and Philadelphia: Institute of Physics Publishing, 2000.

66. De Jong K. An analysis of the behavior of a class of genetic adaptive systems. Unpublished PhD thesis. University of Michigan, Ann Arbor, 1975.

67. Goldberg D.E. Genetic Algorithms in Search, Optimization, and Machine Learning Addison-Wesley, 1989.

68. Mitchell M. An Introduction to Genetic Algorithms MIT Press, Cambridge, MA, 1996.

69. Рапопорт A.H. Автоматные модели поисковой оптимизации и управления Киров: ВятГТУ, 1999.

70. Лосев И.С., Максимов В.В. О задаче обобщения начальных ситуаций // Моделирование обучения и поведения -М.: Наука, 1975.

71. Бонгард М.М., Лосев И.С., Максимов В.В., Смирнов М.С. Формальный язык описания ситуаций, использующий понятие связи // Моделирование обучения и поведения М.: Наука, 1975.

72. Анохин П.К. Принципиальные вопросы общей теории функциональных систем // Принципы системной организации функций М.: Наука, 1973.

73. Анохин П.К. Системные механизмы высшей нервной деятельности М.: Наука, 1979-453 с.

74. Анохин П.К. Очерки по физиологии функциональных систем М.: Медицина, 1975.

75. Anokhin Р.К. Biology and Neurophysiology of the Conditioned Reflex and Its Role in Adaptive Behavior Pergamon, Oxford, 1974.

76. Моделирование функциональных систем (под ред. Судакова К.В. и Викторова В.А.) М.: РАМН, РСМАН, 2000 - 254 с.

77. Widrow В., Gupta N., Maitra S. Punish/reward: learning with a critic in adaptive threshold systems // IEEE Transactions on Systems, Man and Cybernetics 1973-V. 3,N 5 - P. 455-465.

78. Barto A.G., Sutton R.S., Anderson C.W. Neuronlike elements that can solve difficult learning control problems // IEEE Transactions on Systems, Man, and Cybernetics N 13 - P. 835-846.

79. Werbos P.J. Advanced forecasting methods for global crisis warning and models of intelligence // General Systems Yearbook 1977 - N 22 - P. 25-38.

80. Редько В.Г., Прохоров Д.В. Нейросетевые адаптивные критики // Научная сессия МИФИ-2004. VI Всероссийская научно-техническая конференция «Нейроинформатика-2004». Сборник научных трудов. Часть 2 М.: МИФИ -2004-С. 77-84.

81. Prokhorov D.V., Wunsch D.C. Adaptive critic designs // IEEE Trans. Neural Networks 1997 - V. 8, N 5 - P. 997-1007.

82. Prokhorov D.V. Backpropagation through time and derivative adaptive critics: a common framework for comparison (Edt. by Si J., Barto A., Powell W., Wunsch D.) IEEE Press and John Wiley & Sons, 2004.

83. Prokhorov D.V., Puskorius G., Feldkamp L. Dynamical Neural Networks for Control // In: J. Kolen and S. Kremer (Eds.) A Field Guide to Dynamic Recurrent Networks IEEE Press, 2001.

84. Moody J., Wu L., Liao Y., Saffel M. Performance function and reinforcement learning for trading systems and portfolios // Journal of Forecasting 1998 - V. 17 -P. 441-470.

85. Baldwin J.M. A new factor in evolution // American Naturalist 1896 - V. 30 -P. 441-451.

86. Turney P., Whitley D., Anderson R. (Eds.). Evolution, Learning, and Instinct: 100 Years of the Baldwin Effect // Special Issue of Evolutionary Compulation on the Baldwin Effect 1996 - V.4, N 3.

87. Верещагин H.B., Варакин Ю.Я. Эпидемиология инсульта в России: результаты и эпидемиологические аспекты проблемы // Журнал неврологии и психиатрии им. С.С. Корсакова. Приложение «Инсульт» 2001 - N 1 -С. 34-40.

88. Реброва О.Ю. Применение методов интеллектуального анализа данных для решения задачи медицинской диагностики // Новости искусственного интеллекта 2004 - N 3 - С. 76-80.

89. Kuwana Y., Shimoyama I., Sayama Y., Miura H. Synthesis of Pheromone-Oriented Emergent Behavior of a Silkworm Moth // Proceedings of the 1996 IEEE/RSJ International Conference on Intelligent Robots and Systems 1996 P. 1722-1729.

90. Red'ko V.G., Mosalov O.P., Prokhorov D.V. A Model of Evolution and Learning // Neural Networks 2005 - V. 18, N 5-6 - P. 738-745.

91. Mosalov O.P., Prokhorov D.V., Red'ko V.G. Influence of neural network structure on cooperation of learning and evolution // Optical Memory and Neural Networks 2006 - V. 15, N 4 - P. 180-184.

92. Mosalov O.P., Rebrova O.Yu., Red'ko V.G. Neuroevolutionary methods of stroke diagnosis // Optical memory and Neural networks 2007 - V. 16, N 2 -P. 81-90.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.