Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных тема диссертации и автореферата по ВАК РФ 05.13.10, кандидат технических наук Гудков, Алексей Анатольевич

  • Гудков, Алексей Анатольевич
  • кандидат технических науккандидат технических наук
  • 2008, Пенза
  • Специальность ВАК РФ05.13.10
  • Количество страниц 177
Гудков, Алексей Анатольевич. Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных: дис. кандидат технических наук: 05.13.10 - Управление в социальных и экономических системах. Пенза. 2008. 177 с.

Оглавление диссертации кандидат технических наук Гудков, Алексей Анатольевич

Введение.

1. Методы и системы мониторинга социально-экономической сферы региона.

1.1. Традиционные методы мониторинга социально-экономических систем.

1.2. Системы поддержки принятия решений и технологии KDD.

1.3. Обзор существующих систем анализа социально-экономической информации.

Выводы.

2. Модели и методы интеллектуального анализа социально-экономических данных.

2.1. Интеллектуальный анализ данных (ИАД) как основа процесса KDD.

2.2. Методы ИАД в социально-экономической сфере.

2.3. Конструирование интегральных показателей как метод ИАД, специфичный для социально-экономических данных.

Выводы.

3. Информационное и программное обеспечение автоматизированной системы мониторинга (АСМ).

3.1. Структура АСМ.

3.2. Формирование многомерного хранилища данных в Microsoft Analysis Services.

3.3. Особенности использования компонента Microsoft SQL Server Data Mining.

Выводы.

4. Методические и практические аспекты применения АСМ.

4.1. Организация процесса мониторинга социально-экономической сферы региона.

4.2. Анализ социально-экономических данных с использованием методов Data Mining.

4.3. Построение интегрального показателя на основе социально-экономических данных.

Выводы.

Рекомендованный список диссертаций по специальности «Управление в социальных и экономических системах», 05.13.10 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматизированная система мониторинга социально-экономической сферы региона на основе технологий обнаружения знаний в базах данных»

Управление социально-экономическими (СЭ) объектами подразумевает выполнение определенной последовательности действий: сбор информации об объекте управления; анализ полученной информации; принятие решения; управляющее воздействие; контроль. Первые два этапа, относящиеся к сбору и анализу информации, составляют основу понятия «мониторинг». Таким образом, мониторинг можно определить как составную часть процесса управления, заключающуюся в систематическом наблюдении и анализе деятельности объекта управления. Следовательно, для принятия обоснованных управленческих решений региональным органам власти необходимы современные средства и методы сбора и анализа СЭ-информации. Особую актуальность проблема мониторинга приобретает тогда, когда информация об исследуемой системе сложно структурирована и отражает различные стороны ее функционирования, что характерно для СЭ-сферы региона.

Проблемой регионального мониторинга занимаются такие ведущие организации, как Центральный экономико-математический институт РАН, Институт экономики Карельского научного центра РАН, Ивановский государственный энергетический университет, компании «Прогноз», «ИНЭК», «ПАРУС» и др.

Данная работа направлена на разработку новых подходов к мониторингу СЭ-сферы региона, позволяющих повысить его качество. Для этих целей предлагается использовать технологии обнаружения знаний в базах данных (Knowledge Discovery in Databases, KDD), к которым можно отнести технологии хранилищ данных (ХД), многомерных баз данных (МБД), технологии оперативной и интеллектуальной обработки данных (OLAP и Data Mining), геоинформационные технологии.

Цель и задачи исследования. Целью диссертационной работы является исследование проблемы регионального мониторинга и анализа СЭинформации с использованием технологий KDD, а также разработка автоматизированной системы мониторинга (АСМ) на основе указанных технологий и методики ее применения на примере региональных СЭ-данных. Для достижения поставленной цели необходимо решить следующие задачи:

1. Анализ существующих методов мониторинга и поиск путей повышения качества мониторинга; анализ применимости процесса KDD к задаче мониторинга СЭ-сферы региона.

2. Анализ существующих алгоритмов интеллектуального анализа данных (ИАД) и возможности их применения к СЭ-данным. Разработка методов ИАД, специфичных для СЭ-сферы, в частности, метода конструирования интегральных показателей (ИП) на множестве СЭ-показателей.

3. Проектирование АСМ на базе технологий KDD, определение ее структуры и функций . входящих в нее модулей;' разработка программного и информационного обеспечения АСМ.

4. Апробация разработанной системы. Экспериментальное исследование всех этапов мониторинга в рамках процесса KDD. Составление рекомендаций по проведению мониторинга СЭ-сферы региона с использованием разработанной АСМ.

Методы исследования. При решении поставленных задач использовались принципы и методы системного анализа, теории принятия решений, модульного и объектно-ориентированного проектирования и программирования, теории баз данных, математической статистики, факторного анализа, геоинформационного пространственного анализа.

Научная новизна. Основные результаты диссертационной работы, выносимые на защиту, состоят в следующем:

1. Впервые предлагается использовать технологии KDD (в том числе, методы Data Mining) для мониторинга СЭ-сферы региона, что позволит устранить недостатки, присущие традиционным методам мониторинга, и повысить качество мониторинга.

2. Предложена структура ACM, поддерживающей все этапы процесса KDD: сбор данных, их очистку, консолидацию в МБД, интеллектуальный анализ данных, вывод и интерпретацию результатов, — с учетом специфики предметной области.

3. Предложен новый алгоритм Data Mining, специфичный для СЭ-исследований, - алгоритм конструирования ИП, позволяющий выявлять латентные признаки в исследуемых системах, ранжировать объекты, выявлять признаки, обуславливающие социальное или экономическое развитие отдельных регионов (или, наоборот, их депрессию) и др.

4. Разработана методика проведения анализа СЭ-информации с использованием алгоритмов ИАД. Отличительной особенностью предлагаемого подхода является разработанный механизм генерирования рекомендаций для лица, принимающего решения (ЛПР), на основе результатов ИАД.

Практическая ценность. Предлагаемый новый подход к мониторингу СЭ-систем на основе технологий KDD позволяет: эффективно аккумулировать СЭ-информацию из различных источников; выполнять анализ больших групп СЭ-показателей в их системном единстве; повысить оперативность анализа; обнаруживать скрытые закономерности в данных; более выразительно представлять результаты анализа; снизить трудоемкость процесса мониторинга. Все это способствует принятию более обоснованных управленческих решений.

Разработано программное и информационное обеспечение АСМ, имеющей в своем составе подсистемы очистки данных, формирования структуры МБД, ввода и редактирования данных, интеллектуального анализа информации и др. Разработанное программное обеспечение (ПО) функционирует на платформе Win32 (Windows 2000/ХР/2003). В рамках подсистемы интеллектуального анализа информации разработано ПО, реализующее алгоритм конструирования ИП и позволяющее оперативно вычислять ИП на заданном множестве показателей.

Результаты анализа, описывающие выявленные закономерности в данных, представляются в виде наглядных графиков, диаграмм, сетей и т. п., а также в виде конкретных рекомендаций относительно значений входных переменных, удовлетворяющих заданному значению целевой переменной. Кроме того, имеется возможность отображения данных на электронных географических картах. Все это значительно упрощает работу ЛПР при управлении СЭ-системой.

Даны практические рекомендации по использованию разработанной АСМ, предложена последовательность и описано содержание этапов мониторинга СЭ-информации.

Внедрение результатов работы. Основные теоретические и практические результаты диссертационной работы использовались при выполнении темы «Разработка и апробация методики оценки состояния и оптимизации региональной сети профессионального образования с учетом решения задач формирования общенациональных университетов и системообразующих вузов. Создание регионального модуля системы информационно-аналитического обеспечения» (договор от 18 сентября 2007 г. №3/П637 в рамках ГК № 63/М-Н-3874 р от 17.09.07).

Кроме того, результаты работы использовались при выполнении НИР «Разработка методики информационной поддержки подготовки и переподготовки государственных и муниципальных служащих в области информационных технологий» по заказу Тамбовского государственного технического университета (договор № 05/07 от 1 февраля 2007 г.), о чем имеется акт внедрения.

Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах: X, XI, XII Международные научно-методические конференции «Университетское образование» (Пенза, 2006-2008 гг.), конференция «Технологии Microsoft в теории и практике программирования»

Нижний Новгород, 2006 г.), Всероссийская научно-практическая конференция «Развитие университетского комплекса как фактор повышения инновационного и образовательного потенциала региона» (Оренбург, 2007 г.), XXXIV Международная конференция «Информационные технологии в науке, социологии, экономике и бизнесе IT+SE'07» (Ялта-Гурзуф, 2007 г.), XIV, XV Всероссийские научно-методические конференции «Телематика'2007, '2008» (Санкт-Петербург, 2007-2008 гг.), I Всероссийская научно-практическая конференция «Информационные технологии в образовании, науке и производстве» (Серпухов, 2007 г.), II Международная конференция «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (Пенза, 2007 г.), XIII Всероссийская научно-техническая конференция «Новые информационные технологии в научных исследованиях и образовании» (Рязань, 2008 г.), научно-практическая конференция «Перспективные технологии искусственного интеллекта» (Пенза, 2008 г.), научно-технические конференции профессорско-преподавательского состава Пензенского государственного университета (2006-2008 гг.).

Публикации. По материалам диссертации опубликовано 16 печатных работ, в том числе 1 в журнале, рекомендованном ВАК РФ. В работах, выполненных в соавторстве, лично соискателю принадлежит: в [11,12,15,16,17] - применение технологий KDD и методов ИАД для анализа СЭ-данных; в [14] - описание методологии ИАД и аспектов его использования при принятии управленческих решений; в [19] - разработка информационно-аналитического обеспечения процесса подготовки и переподготовки государственных и муниципальных служащих на основе методов ИАД; в [20] - методика построения ИП для анализа индикаторов деятельности высших учебных заведений; в [29] — описание аспектов автоматизированного анализа данных с использованием методов Data Mining.

Структура и объем работы. Диссертация состоит из введения,

Похожие диссертационные работы по специальности «Управление в социальных и экономических системах», 05.13.10 шифр ВАК

Заключение диссертации по теме «Управление в социальных и экономических системах», Гудков, Алексей Анатольевич

Основные результаты теоретических и экспериментальных исследований, приведенных в диссертационной работе в соответствии с поставленной целью, могут быть сформулированы следующим образом:

1. Анализ существующих методов мониторинга СЭ-сферы региона выявил присущие им недостатки: ограниченные возможности совместного анализа больших групп СЭ-показателей в их системном единстве; неиспользование преимуществ иерархической структуры СЭ-данных; использование только традиционных статистических методов анализа, не позволяющих обнаруживать скрытые закономерности в данных, и др. В целях устранения выявленных недостатков предлагается комплексное использование технологий МБД, OLAP, ИАД, ГИС. Использование МБД позволит эффективно аккумулировать СЭ-информацию из различных источников; технология OLAP позволит проводить оперативный анализ различных срезов многомерного куба данных и выполнять операции детализации/обобщения данных; технология ИАД позволит выявлять в СЭ-данных скрытые закономерности и совместно с ГИС-технологиями позволит более выразительно представлять результаты анализа.

2. Впервые предлагается использовать технологию обнаружения знаний в данных (KDD) применительно к мониторингу СЭ-сферы региона, что позволит перевести мониторинг на качественно более высокий уровень, а также получить максимальный эффект от применения указанных выше информационных технологий. Проанализированы этапы процесса KDD, на каждом из которых сформулированы соответствующие требования к автоматизированной системе мониторинга (АСМ).

3. Проведен анализ современного состояния систем и инструментальных средств, используемых при анализе СЭ-информации. Отмечены недостатки, присущие им: для специализированных систем — это полное или частичное отсутствие поддержки процесса KDD и методов ИАД, что делает невозможным выявление глубинных закономерностей, присущих исследуемым СЭ-системам; для универсальных систем - это их чрезмерная сложность, малая пригодность для целей мониторинга (больше предназначены для анализа информации), а также отсутствие аналитических методов, специфичных для СЭ-систем. В связи с этим, сделан вывод о необходимости разработки системы мониторинга СЭ-сферы региона с использованием технологий KDD.

4. Анализ современных методов и моделей ИАД показал, что такие методы Data Mining, как кластеризация, ассоциативные правила, деревья решающих правил и др. могут использоваться при анализе региональных СЭ-данных для выявления в них неочевидных закономерностей. Однако, в связи с тем, что изначально алгоритмы Data Mining разрабатывались для решения бизнес-задач, в них отсутствуют аналитические инструменты, I специфичные для СЭ-сферы. В частности, обзор существующих систем ИАД показал, что в них отсутствует возможность построения ИП, широко используемых при исследовании СЭ-систем.

5. Предложен новый алгоритм ИАД, позволяющий конструировать ИГ1, которые можно использовать для выявления латентных признаков, присущих СЭ-системам, ранжирования объектов, их сравнения, выявления признаков, обуславливающих социальное или экономическое развитие отдельных регионов и др. В результате анализа методов уменьшения размерности пространства признаков и нахождения комплексных оценок разработан двухэтапный алгоритм конструирования ИП: для получения сокращенного набора независимых признаков используется факторный анализ (метод главных компонент); для построения единого ИП используется экспертно-статистический подход. Разработана программная реализация алгоритма конструирования ИП в рамках АСМ.

6. Предложена структура АСМ на базе технологий KDD, разработано программное и информационное обеспечение АСМ, реализующее все функции процесса KDD: сбор данных, их очистку, консолидацию в МБД, интеллектуальный анализ данных, вывод и интерпретацию результатов. Ключевой в разработанной АСМ является подсистема интеллектуального анализа информации, которая выполняет следующие основные функции: обращается к МБД; взаимодействует с сервером OLAP и Data Mining; отображает результаты ИАД; генерирует на их основе рекомендации; строит ИП; отображает данные на электронной географической карге.

7. Разработана методика проведения мониторинга СЭ-систем на базе технологий KDD, в том числе методика анализа СЭ-информации с использованием алгоритмов ИАД. Проведено практическое исследование распространенных методов ИАД (кластеризация, деревья решений, ассоциативные правила, байесовский алгоритм, нейронные сети и др.) применительно к СЭ-данным, подтвердившее возможность использования методов Data Mining для выявления неочевидных закономерностей, присущих СЭ-сфере региона.

8. Реализовано несколько проектов с помощью созданной АСМ. Экспериментальные исследования показали, что применение разработанной системы дает возможность учесть при анализе большие группы СЭ-показателей в их системном единстве, снизить трудоемкость процесса мониторинга, выявить неочевидные закономерности в данных. Даны практические рекомендации по проведению мониторинга с использованием разработанной АСМ.

Заключение

Список литературы диссертационного исследования кандидат технических наук Гудков, Алексей Анатольевич, 2008 год

1. Айвазян, С.А. Прикладная статистика и основы эконометрики / С.А.Айвазян, В.С.Мхитарян. М.: ЮНИТИ, 1998.

2. Айвазян, С.А. Разработка и анализ интегральных индикаторов качества жизни населения Самарской области / С.А.Айвазян. М.: ЦЭМИ РАН, 2005.- 124 с.

3. Айвазян, С.А. Россия в межстрановом анализе синтетических категорий качества жизни населения / С.А.Айвазян. — http://www.hse.ru/journals/wrldross/volO 1 4/Ivazian 1 .htm

4. Ариячандра, Т. Показатели успешного внедрения средств Business Intelligence и хранилищ данных / Т.Ариячандра, Х.Уотсон. -http://citcity.ru/11751/

5. Арсеньев, С. Извлечение знаний из медицинских баз данных / С.Арсеньев. Мегапьютер. - http://neural.narod.ru/arsen.zip

6. Артемьев, В. Что такое Business Intelligence? / В.Артемьев // Открытые системы. 2003. - № 4.

7. Баранов, C.B. Новые методики и результаты исследования межрегиональной дифференциации на основе метода главных компонент / С.В.Баранов, Т.П.Скуфьина // Вестник МГТУ, том 11.2008. -№2.-С. 201-210.

8. Барсегян, A.A. Методы и модели анализа данных: OLAP и Data Mining / А.А.Барсегян, М.С.Куприянов, В.В.Степаненко, И.И.Холод. СПб.: БХВ-Петербург, 2004. - 336 с.

9. Бергер, Ч. Data Mining от Oracle: настоящее и будущее / Ч.Бергер. -http://www.citforum.ru/database/oracle/data mining solutions/

10. Бершадский, A.M. Выявление закономерностей между уровнем образования населения и социально-экономическими показателями региона с использованием технологий KDD / А.М.Бершадский, А.А.Гудков // Дистанционное и виртуальное обучение. — 2008. № 5. -С. 29-40.

11. Бершадский, A.M. Геоинформационный подход к мониторингу региональных образовательных систем / А.М.Бершадский, А.С.Бождай // Информационные технологии. — 1998. — № 12. — С. 39-43, 50.

12. Бершадский, A.M. Применение методов Data Mining для анализа данных образовательной статистики / А.М.Бершадский, А.А.Гудков // Труды XIV Всероссийской научно-методической конференции «Телематика'2007». Санкт-Петербург, 2007. - С. 382-384.

13. Бершадский, A.M. Применение методов Data Mining для анализа социально-экономических статистических данных / А.М.Бершадский,

14. Бершадский, A.M. Технология анализа индикаторов деятельности высших учебных заведений / А.М.Бершадский, А.А.Гудков // Труды XV Всероссийской научно-методической конференции «Телематика'2008». Санкт-Петербург, 2008. - С. 442-^143.

15. Бождай, A.C. Разработка системы мониторинга образования в регионе на основе геоинформационной технологии: диссертация на соискание ученой степени кандидата технических наук / А.С.Бождай. Пенза, 2000.

16. Большаков, П.С. Уникальные возможности STATISTICA Data Miner / П.С.Большаков. http://www.statsoft.ru/home/applications/dataminer.htm

17. Буч, Г. Объектно-ориентированный анализ и проектирование с примерами приложений: пер. с англ. / Г.Буч. — М.: Бином, 1998.

18. Вагин, В.II. Достоверный и правдоподобный вывод в интеллектуальных системах / В.Н.Вагин и др.; под ред. В.Н.Вагина, Д.А.Поспелова. М.: ФИЗМАТЛИТ, 2004. - 704 с.

19. Васильев, В. «Тяжелая» информация «легкая» ГИС / В.Васильев, Д.Журко // ArcReview. - 2003. - № 4. - С. 21.

20. Волгоинформсеть: Автоматизированные системы для подготовки и принятия управленческих решений. — http://www.ais.vis.ru/site/tais 1 .nsf/wpages 1 /01

21. Волков, И. Архитектура современной информационно-аналитической системы / И.Волков, И.Галахов // Директор ИС. 2002. - № 3. -http://www.osp.ru/cio/2002/03/172079/

22. Годин, A.M. Статистика: учебник / А.М.Годин. 3-е изд., перераб. - М.: Издательско-торговая корпорация «Дашков и К°», 2004.

23. Гудков, A.A. Исследование возможностей SQL Server 2005 для анализа образовательных данных / А.А.Гудков // Университетское образование: Сборник статей X Международной научно-методической конференции. Пенза: ПГУ, 2006. - С. 363-365.

24. Гудков, A.A. Построение интегральных индикаторов как инструмент мониторинга университетского образования / А.А.Гудков // Университетское образование: Сборник статей XI Международной научно-методической конференции. Пенза, 2007. - С. 175-177.

25. Гудков, A.A. Применение новых информационных технологий анализа информации в сфере образования / А.А.Гудков // Известия Пензенского государственного педагогического университета. Сектор молодых ученых. № 3 (7). Пенза: ПГПУ, 2007. - С. 201-203.

26. Гудков, A.A. Система поддержки принятия решений на основе технологий KDD в управлении образованием / А.А.Гудков // Университетское образование: Сборник статей XII Международной научно-методической конференции. Пенза, 2008. — С. 297-299.

27. Гудков, П.А. Разработка системы автоматизированного мониторинга на основе технологии OLAP: автореферат диссертации на соискание ученой степени кандидата технических наук. Пенза, 2005.

28. Дамлер, М. Microsoft SQL Server 2005: обзор продукта / М.Дамлер. -2005. http://www.citfomm.ru/database/mssql/overview/

29. Дейт, К.Дж. Введение в системы баз данных: пер. с англ. / К.Дж.Дейт. -7-е изд. М.: Издательский дом «Вильяме», 2001.

30. Дунаев, С.Б. Доступ к базам данных и техника работы в сети. Практические приёмы современного программирования / С.Б.Дунаев. — М.: ДИАЛОГ-МИФИ, 2000.

31. Дюк, В. Data Mining состояние, проблемы, новые решения / В.Дюк. -http://www.inftech.webservis.ru/it/database/datamining/arl.html

32. Елманова, Н. Введение в Data Mining / Н.Елманова // КомпьютерПресс. 2003. - №№ 8,10,12.

33. Жуковская, В.М. Факторный анализ в социально-экономических исследованиях / В.М.Жуковская, И.Б.Мучник. — М.: Статистика, 1976.

34. ИАССЭП: Информационно-аналитическая система социально-экономических показателей. http://serverl .data.cemi.rssi.ru/isepweb/

35. Инмон, Б. Технология хранилищ данных для государственных учреждений / Б.Инмон. 2005. - http.7/citcity.ru/l 1142/

36. Инструменты Data Mining: что лучше выбрать? (по материалам зарубежных сайтов). Intersoft Lab, 2006. - http://citcity.ru/12997/

37. ИнфоВизор: Комплекс средств автоматизации поддержки принятия решений. http ://infovisor.ivanovo.ru/

38. Информационные системы в экономике: учебник / Под ред. Г.А.Титоренко. 2-е изд., перераб. и доп. - М.: ЮНИТИ-ДАНА, 2006. -463 с.

39. ИНЭК: Интегрированные информационно-аналитические системы автоматизации управленческой деятельности. http://www.inec.ru/cgi-bin/inec/main.pl?,g;id^:5

40. Иродов, М.И. Мониторинг как инструментальное средство повышения эффективности управления системой профессионального образования / М.И.Иродов, Т.А.Степанова // Педагогический Вестник ЯГПУ. 1998. -№ 1.

41. Калинина, В.Н. Введение в многомерный статистический анализ: учебное пособие / В.Н.Калинина, В.И.Соловьев. М.: ГУУ, 2003. - 66 с.

42. Камаев, В.А. Технологии программирования: учебник / В.А.Ка^аев, В.В.Костерин. М.: Высш. шк., 2005. - 360 с.

43. Кинг, Э.А. Приобретение средств Data Mining: как избежать ошибок при создании системы прогнозной аналитики / Э.А.Кинг. -http://citcity.ru/12995/

44. Концепция системы поддержки принятия и исполнения решений для управления социально-экономическим развитием территорий. — М.: ЗАО «Прогноз», 2004.

45. Коровкин, С.Д. Решение проблемы комплексного оперативного анализа информации хранилищ данных / С.Д.Коровкин и др.. — http://www.citforum.ru/database/articles/artl 1 .shtml

46. Кузнецов, С.Д. Ландшафт области управления данными: аналитический обзор / С.Д.Кузнецов, М.Н.Гринев. 2008.http://www.citforum.ru/database/data managementoverview/2.shtml

47. Кузнецов, С. Обзор возможностей применения ведущих СУБД для построения хранилищ данных (DataWarehouse) / С.Кузнецов, В.Артемьев. http://www.olap.ru/

48. Кулагин, В.П. Особенности использования технологий OLAP для задач образовательной статистики / В.П.Кулагин, В.Я.Цветков, Т.В.Булгакова // Вопросы Интернет-образования. 2002. - № 9.

49. Либерти, Дж. С++. Энциклопедия пользователя / Дж.Либерти. -ДиаСофт, 2001.-590 с.

50. Литвак, Б.Г. Разработка управленческого решения: учебник / Б.Г.Литвак. 3-е изд., испр. - М.: Дело, 2002. - 392 с.64.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.