Автоматизация процессов повышения достоверности обработки информации и принятия решений в контуре систем диспетчерского управления тема диссертации и автореферата по ВАК РФ 05.13.06, кандидат технических наук Орлов, Антон Олегович

  • Орлов, Антон Олегович
  • кандидат технических науккандидат технических наук
  • 2013, Москва
  • Специальность ВАК РФ05.13.06
  • Количество страниц 187
Орлов, Антон Олегович. Автоматизация процессов повышения достоверности обработки информации и принятия решений в контуре систем диспетчерского управления: дис. кандидат технических наук: 05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям). Москва. 2013. 187 с.

Оглавление диссертации кандидат технических наук Орлов, Антон Олегович

Введение.

Глава 1. Анализ методов оценки достоверности обработки информации в автоматизированных системах.

1.1 Анализ характеристик качества данных.

1.1.1 Общие характеристики качества данных.

1.1.2 Особенности возникновения и распространения искажений в данных

1.1.3 Анализ существующих показателей достоверности.

1.2 Анализ существующих моделей и методов поддержки принятия решений

1.2.1 Модели процесса принятия решений в организациях.

1.2.2 Прогнозирование.

1.2.3 Принципы построения систем поддержки принятия решений.

1.2.4 Существующие типы моделей данных.

1.3 Выводы по главе 1.

Глава 2. Проблемы работы с искажениями данных в системах диспетчерского управления.

2.1 Типы искажений в данных.

2.1.1 Отсутствие значений.

2.1.2 Аномальные значения (выбросы) в данных.

2.2 Задачи моделирования искажений в данных обучающей выборки.

2.2.1 Искажения, связанные с выбросами.

2.2.2 Искажения по причине отсутствия значений.

2.3 Обнаружение выбросов в данных.

2.3.1 Степень локальной аномальности.

2.3.2 Проблема выбора параметра МЫЧэ.

2.3.3 Вычисление расстояний между значениями категориального атрибута

2.3.4 Модель анализа выбросов в категориальных атрибутах.

2.4 Повышение достоверности обработки данных.

2.4.1 Обработка выбросов.

2.4.2 Заполнение пропусков в данных.

2.5 Выводы по главе 2.

Глава 3. Прогнозная модель поддержки решения управленческих задач.

3.1 Задача построения модели дерева решений.

3.2 Методика оценки результатов анализа выбросов в данных.

3.3 Проблема выбора стратегии повышения достоверности обработки данных

3.4 Использование алгоритмов повышения достоверности обработки данных при построении дерева решений.

3.4.1 Алгоритм выбора стратегии и восстановления данных.

3.4.2 Алгоритм ГОЗО.

3.5 Выводы по главе 3.

Глава 4. Программная реализация и интеграция системы поддержки принятия управленческих решений на основе разработанных механизмов.

4.1 Разработка программной части системы поддержки принятия управленческих решений.

4.1.1 Описание основных функций программы.

4.1.2 Архитектура системы.

4.1.3 Алгоритм построения дерева решений.

4.1.4 Описание программы.

4.2 Интеграция разработанной системы с технологическими процессами предприятия.

4.2.1 Постановка производственной задачи.

4.2.2 Описание предметной области решаемой задачи.

4.2.3 Основные рассматриваемые параметры.

4.3 Реализация методики тестирования разработанных механизмов анализа данных.

4.3.1 Процедура тестирования механизмов анализа данных.

4.3.2 Наборы данных для проведения экспериментов.

4.3.3 Результаты проведения экспериментов.

4.4 Итоги внедрения системы.

4.5 Выводы по главе 4.

Рекомендованный список диссертаций по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматизация процессов повышения достоверности обработки информации и принятия решений в контуре систем диспетчерского управления»

Актуальность работы связана с фактом бурного развития сетевых технологий, формирования единого информационного пространства, глобализацией в целом. Данные явления оказывают серьезное влияние на работу интеллектуальных систем и, в частности, систем поддержки принятия решений. Во-первых, доступ потребителя к информации в целом существенно упрощен, то есть минимально количество усилий для получения обширного объема информации в любой области. Во-вторых, для отдельного частного лица стали легко доступны механизмы создания и публикации информации, становящейся моментально доступной широкому кругу потребителей. Эти изменения невозможны без уменьшения или полной отмены ограничений на создание и публикацию информации, что неминуемо повлекло за собой резкое снижение доли качественной информации в общем информационном пространстве.

Объектом исследования являются системы диспетчерского управления. В частности, системы поддержки принятия управленческих решений. Эти системы принадлежат к той категории интеллектуальных систем, в которых анализируются данные, созданные в процессе работы человека.

Предмет исследования. В данной работе исследуются прогнозные модели, основанные на классификационных моделях решающих деревьев. В этой области весьма существенными являются работы многих российских и зарубежных авторов, таких как В. Н. Вагин [5-9], Д. А. Поспелов [51], Дж. Куинлан [105-106], П. Утгофф [112], М. Брюниг [74] и другие. В области анализа и разработки управленческих решений важны работы Б. Г. Литвака [38], в области анализа качества данных - работы Р. Вонга [117-119], Дж. Олсона [104], К. Батини [71]. Разработанные механизмы позволяют эффективно строить модели деревьев решений по наборам исходных данных. Крайне важным моментом при построении моделей является качество исходных данных обучающего множества, поскольку от него фактически зависит результат анализа новых данных.

Цель работы состоит в повышении достоверности обработки информации в диспетчерских системах за счет автоматизации процессов принятия управленческих решений, а именно, в разработке устойчивого к ошибкам в данных механизма работы таких систем. Для достижения поставленной цели в ходе работы решаются следующие задачи:

1. Моделирование искажений в данных обучающей выборки с целью контроля точности работы алгоритмов анализа;

2. Обнаружение аномалий в данных. В том числе расчет расстояний между значениями категориального атрибута, а таюке интерпретация результатов процесса поиска аномалий;

3. Устранение шума в данных на основе анализа данных, не содержащих шум;

4. Выбор стратегии повышения качества данных в условиях ограниченности ресурсов с целью повышения эффективности процесса анализа данных и выработки рекомендаций для принятия управленческого решения.

Научная новизна исследования.

Разработаны процедуры генерации шума в обучающей выборке, позволяющие генерировать шум разного типа. В частности, шум типа «отсутствие значений» и шум типа «аномалии в данных».

Разработан алгоритм расчета степени аномальности значений атрибутов объектов данных на основе предложенной новой формулы расчета расстояний между этими значениями.

Разработана методика интерпретации результатов расчета степени аномальности значений атрибутов данных, позволяющая интерпретировать данные с учетом субъективной степени жесткости анализа, заданной экспертом.

Создана методика выбора стратегии повышения качества входных данных.

Разработан алгоритм построения прогнозной модели анализа данных, устойчивой к шуму двух типов в обучающей выборке.

Методика проведения исследований. Для достижения целей работы использовались методы теории вероятностей, математической статистики, теории машинного обучения, теории информации. Для разработки программной системы применялись современные технологии создания веб-приложений (JavaScript, РНР5) и визуализации (SVG). В процессе исследования использовались результаты современных трудов российских и иностранных авторов.

Достоверность результатов подтверждается теоретическими данными, результатами экспериментов, данными компьютерного моделирования, сравнением с результатами исследований, приведенными в научной литературе по рассматриваемой области.

Практическая значимость. Разработанные в ходе исследования алгоритмы и механизмы реализованы в программной системе, выполняющей анализ данных для организации, имеющей собственный автотранспортный парк. В частности, реализованы механизмы анализа данных по эффективности использования автотранспорта и построения модели дерева решений на основе проведенного анализа. Также реализован механизм поиска и устранения шума в исходных данных, позволяющий повысить точность классификации объектов средствами построенной прогнозной модели. Практическая значимость подтверждается успешным внедрением разработанной системы в качестве модуля корпоративной системы поддержки принятия решений в ООО «Компания РУС», о чем свидетельствует акт о внедрении.

Апробация работы. Основные положения и научные результаты диссертационной работы докладывались:

- на научных семинарах кафедры ИУ-5 МГТУ им. Баумана;

- на XIII Молодежной международной научно-технической конференции учащихся, студентов, аспирантов и молодых ученых «Наукоемкие технологии и интеллектуальные системы - 2011»;

- на XIV Молодежной международной научно-технической конференции учащихся, студентов, аспирантов и молодых ученых «Наукоемкие технологии и интеллектуальные системы - 2012»;

- на XV Молодежной международной научно-технической конференции учащихся, студентов, аспирантов и молодых ученых «Наукоемкие технологии и интеллектуальные системы - 2013».

Материалы по теме исследования опубликованы в 7 печатных работах.

Структура работы. Диссертация состоит из введения, четырех глав, выводов по работе, списка литературы и приложения.

Похожие диссертационные работы по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Заключение диссертации по теме «Автоматизация и управление технологическими процессами и производствами (по отраслям)», Орлов, Антон Олегович

Выводы по работе

По результатам проведенной исследовательской работы удалось добиться поставленных целей по созданию механизма работы систем поддержки принятия управленческих решений, учитывающего проблемы в исходных данных.

1. Исследованы принципы построения и функционирования систем поддержки принятия решений. Выделены особенности, характерные для систем поддержки принятия управленческих решений;

2. Исследованы аналитические модели, применяющиеся в прогнозном анализе данных. Отмечена модель дерева решений как эффективная модель для прогнозного анализа данных в системах поддержки принятия управленческих решений;

3. Исследовано влияние искажений (шума) в исходных данных на вид построенного дерева как результат работы модели. Рассмотрен шум двух типов: отсутствие значений атрибутов объектов данных и аномальные значения;

4. Разработаны процедуры генерации шума двух типов в данных исходного множества с целью обеспечения возможности проверки работы системы при различном уровне искажений;

5. Разработан алгоритм поиска аномалий в данных, использующий предложенную формулу расчета расстояний между значениями категориального атрибута;

6. Разработаны модель и методика выбора параметров и интерпретации результатов анализа выбросов в категориальных атрибутах данных;

7. Разработан алгоритм устранения шума в данных по методу ближайших соседей с использованием формул расчета расстояний между объектами, в том числе с использованием предложенной формулы расчета расстояний между значениями категориального атрибута;

8. Разработана методика выбора стратегии повышения качества данных в условиях ограниченности ресурсов, использующая предложенный критерий оценки качества объектов данных, основанный на расчете вероятности возникновения искажений по минимальному количеству фильтров;

9. Как результат исследования предложен алгоритм ГОЗО, использующий разработанные механизмы оценки и повышения качества данных совместно с известными алгоритмами построения деревьев решений. Проведены сравнительные испытания предложенного алгоритма методом компьютерного моделирования на различных наборах исходных данных при разных значениях уровня шума. Алгоритм показал высокую способность к построению дерева решений в условиях наличия шума в исходных данных;

10.Разработана программная система для анализа и повышения эффективности использования ресурсов автомобильного парка организации. Разработанная система внедрена в качестве модуля автоматизированной системы поддержки принятия решений в ООО «Компания РУС», о чем свидетельствует акт о внедрении.

Список литературы диссертационного исследования кандидат технических наук Орлов, Антон Олегович, 2013 год

1. Андреев С. С. Исследование и разработка интерактивной компьютерной системы поддержки принятия решений при управлении производством с неспециализированным оборудованием: Дис. . канд. техн. наук. Москва, 2004. 130 с.

2. Бериша А. Исследование и разработка методов извлечения знаний для создания интеллектуальных систем поддержки принятия решений: дис. канд. техн. наук. Москва, 2005. 218 с.

3. Методы обнаружения знаний в зашумленных базах данных / А. М. Бериша и др. // Известия РАН. Теория и системы управления. 2005. № 6. С. 143-158.

4. Выбор метода восстановления пропущенных данных для оценки сердечно-сосудистой деятельности подростков / А. И. Бых и др.

5. Восточно-Европейский журнал передовых технологий. 2010. № 3/4 (45). С. 4-7.

6. Вагин В. Н. Дедукция и обобщение в системах принятия решений. М.: Наука, 1988. 384 с.

7. Достоверный и правдоподобный вывод в интеллектуальных системах

8. В. Н. Вагин и др.. Под ред. В. Н. Вагина, Д. А. Поспелова. 2-е изд., испр. и доп. М.: ФИЗМАТЛИТ, 2008. 712 с.

9. Вагин В. Н., Викторова Н. П. Обобщение и классификация знаний

10. Искусственный интеллект. Модели и методы. М.: Радио и Связь, 1992. С. 82-89.

11. Вагин В. Н., Загорянская А. А. Извлечение данных как наиболее важное приложение технологии информационных хранилищ // Программные продукты и системы. 2000. № 1. С. 2-11.

12. Вагин В. H., Федотов А. А., Фомина М. В. Методы извлечения и обобщения информации в больших базах данных // Изв. РАН. Теория и системы управления. 1999. № 5. С. 45-59.

13. Вишняков Б. В., Кибзун А. И. Применение метода бутстрепа для оценивания функции квантили // Автоматика и телемеханика. 2007. № 11.С. 46-60.

14. Волошина В. Н., Синявский Е. П. Обеспечение достоверности информации при хранении в АСУ. Владивосток, 1989. 23 с.

15. Вуачиламби В. Математические модели и алгоритмы принятия решений для задач управления в условиях неопределенности: Дис. . канд. техн. наук. Владимир, 2000. 185 с.

16. Вуколов М. В. Компьютерные технологии сбора, обработки и передачи информации. Москва, 2000. 79 с.

17. Глушань В. М. и др. Нечеткие модели и методы многокритериального выбора в интеллектуальных системах поддержки принятия решений

18. Известия ЮФУ. Технические науки. 2009. № 4. С.106-113.

19. Грешилов А. А., Мальцев В. П., Пархоменко В. П. Принятие решений с помощью обобщенных линейных разделяющих функций. М.: Радио и связь, 2000. 480 с.

20. Гулин А., Карпович П., Расковалов Д. Оптимизация алгоритмов ранжирования методами машинного обучения. URL. http://romip.ru/romip2009/15yandex.pdf (Дата обращения: 14.11.2010)

21. Загоруйко Н. Г. Методы распознавания и их применение. М.: Советское радио, 1972. 208 с.

22. Зеленков Ю. Г., Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов. URL. http://download.yandex.ru/company/download/paper65vl.pdf (Дата обращения: 01.11.2010)

23. Злоба Е., Яцкив И. Статистические методы восстановления пропущенных данных // Computer Modelling & New Technologies. 2002. Vol. 6, No. 1. P. 51-61.

24. Иванилов E. Л. Автоматизированный поиск и извлечение информации из речевых сообщений. М.: АБИК, 1998. 24 с.

25. Иванилов Е. JI. Компьютерные технологии поддержки принятия решений в информационно-аналитической деятельности: Дис. . доктора техн. наук. Москва, 2009. 304 с.

26. Иванилов Е. Л., Петров В. И. Извлечение информации из медийных источников. М.: МАКС-ПРЕСС, 1998. 96 с.

27. Иванова Н. Э. Технология аналитической обработки данных в банковских системах поддержки принятия решений // Вестник Ростовского государственного экономического университета «РИНХ». 2007. №2. С 161-167.

28. Ильин А. А. Автоматизированная технология проектирования модели данных и контроля качества данных при построении информационно-аналитических систем: Дис. . канд. техн. наук. Тамбов, 2008. 136 с.

29. Ирхин А. В. Разработка информационной системы поддержки принятия решений для управления процессами в условиях недостоверной информации: Дис. . канд. техн. наук. Краснодар, 2004. 187 с.

30. Козлов Д. Б. Математическое и программное обеспечение интегрированной системы поддержки принятия решений на основе лингвистических моделей: Дис. . канд. техн. наук. Тула, 2008. 139 с.

31. Кузовлев В. И., Липкин Д. И. Определение базовых показателей достоверности обработки информации проектных решений АСОИУ

32. Деп. рук. ВИНИТИ. 2001. № 1094-В2001. 12 с.

33. Кузовлев В. И., Липкин Д. И. Формализованное описание процессов возникновения и распространения искажений в АСОИУ с помощью схемы потоков искажений // Деп. рук. ВИНИТИ. 2001. № 1093-В2001. 22 с.

34. Кузовлев В. И., Орлов А. О. Анализ взаимосвязей результатов профилирования // Сб. статей студентов и аспирантов каф. ИУ-5 МГТУ им. Н. Э. Баумана. М., 2012. 8 с.

35. Кузовлев В. И., Орлов А. О. Вероятностный подход к оценке показателя достоверности элементов результатов профилирования

36. Вестник МГТУ им. Баумана. Сер. «Приборостроение». М., 2012. № 4. Юс.

37. Кузовлев В. И., Орлов А. О. Прогнозный анализ данных методом ГОЗО // Наука и образование. МГТУ им. Н. Э. Баумана. Электрон, журн. 2012. № 10. DOI: http://dx.doi.org/10.7463/1012.0483286

38. Кузовлев В. И., Орлов А. О. Учет взаимосвязей между объектами результатов профилирования // Инженерный вестник. МГТУ им. Н. Э. Баумана. Электрон. журн. 2012. № 08. URL. http://technomag.edu.ru/pdf/482766.html?s=l

39. Кузовлев В. И., Орлов А. О. Методика выбора параметров и интерпретации результатов анализа выбросов в данных систем поддержки принятия решений // Вестник МГТУ им. Баумана. Сер. «Приборостроение». М. 2013. 10 с.

40. Лемешко Б. Ю. Робастные методы оценивания и отбраковка аномальных измерений // Заводская лаборатория. 1997. Т. 63, № 5.1. С. 43-49.

41. Липкин Д. И. Разработка и исследование моделей и алгоритмов повышения достоверности в системах оперативной обработки информации: Дис. . канд. техн. наук. Москва, 2001. 272 с.

42. Литвак Б. Г. Разработка управленческого решения: Учебник. 3-е изд., испр. М.: Дело, 2002. 392 с.

43. Лобач Д. Основы OLAP. 2003. URL: http://www.softkey.info/reviews/review.php?ID=465 (дата обращения: 02.04.2012).

44. Майерс Г. Надежность программного обеспечения. М.: Мир, 1980. 360 с.

45. Достоверность, защита и резервирование информации в АСУ / А. Г. Мамиконов и др.. М.: Энергоатомиздат, 1986. 304 с.

46. Мельников Ю. Н. Достоверность информации в сложных системах. М.: Советское радио, 1973. 192 с.

47. Николаев Ф. А., Фомин В. И., Хохлов Л. М. Проблемы повышения достоверности в информационных системах Л.: Энергоиздат, 1982.144 с.

48. Нищенков А., Шапкин Е. Анализ эффективности использования площадей предприятий // Наука и новые технологии. 2007. № 3. URL: http://www.morflot.su/archives/articlesl490file.pdf (дата обращения: 07.07.2012).

49. Орлов А. И. Прогностическая сила как показатель качества алгоритма диагностики // Вестник Пермского государственного университета. 2011. №23. 13 с.

50. Орлов А. О. Проблема поиска расстояний между значениями категориальных атрибутов при обнаружении выбросов в данных // В мире научных открытий. 2012. № 8.1. С. 142-155.

51. Орловский С. А. Проблемы принятия решений при нечеткой входной информации. М.: Наука, Главная редакция физико-математической литературы, 1981, 208 с.

52. Петров С. А. Методика проектирования программных средств для интеллектуального анализа данных и принятия решений: Дис. . канд. техн. наук. Москва, 2007. 123 с.

53. Пивоваров А. Н. Методы обеспечения достоверности в АСУ: Обзор методов и фактические данные. М.: Радио и связь, 1982. 144 с.

54. Попов А. JI. Системы поддержки принятия решений: Учебно-метод. пособие. Екатеринбург: Урал. гос. ун-т, 2008. 80 с.

55. Поспелов Д. А. Ситуационное управление: теория и практика. М.: Наука, Гл. ред. физ.-мат. лит., 1986. 288 с.

56. Пучков Е. Методы и системы поддержки принятия управленческих решений // Ваш Капитал Юг. 2008. № 6-7. URL. http://i-intellect.ru/business-intelligence/decision-support-systems.html (Дата обращения: 28.05.2012)

57. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рутковская и др.; Пер. с польск. И. Д. Рудинского. М.: Горячая линия Телеком, 2006. 452 е.: ил.

58. Снитюк В. Е. Эволюционный метод восстановления пропусков в данных // Интеллектуальный анализ информации. Межд. конф. Киев, 2006. 10 с.

59. Стрижов В. В. Методы индуктивного порождения регрессионных моделей // Сообщения по прикладной математике / Вычислительный центр РАН. Москва, 2008. 61 с.

60. Стрижов В. В., Крымова Е. А. Методы выбора регрессионных моделей // Сообщения по прикладной математике / Вычислительный центр РАН. Москва, 2010.60 с.

61. Сухов А. Н. Контроль и обеспечение достоверности информации в АСУ. М.: Знание, 1977. 64 с.

62. Тамре Л. Введение в тестирование программного обеспечения. : Пер. с англ. М.: Издательский дом «Вильяме», 2003. 368 с.

63. Теория вероятностей: Учебник для вузов. 3-е изд., испр. / А. В. Печинкин, и др.; Под ред. В. С. Зарубина, А. П. Крищенко. М.: Изд-во МГТУ им. Н. Э. Баумана, 2004. 456 с.

64. Ткачук Е. О. Требования к адаптивным системам поддержки принятия управленческих решений // Известия ТРТУ. 2002. № 2. С. 248-251.

65. Федоров А., Елманова Н. Введение в OLAP // КомпьютерПресс. 2001. № 4. С. 90-94.

66. Флэнаган Д. JavaScript. Подробное руководство. М.:Символ-Плюс, 2012. 1080 с.

67. Фомина М. В. Методы обнаружения знаний в массивах с шумом //Новости искусственного интеллекта. 2006. № 3. С. 63-80.

68. Фор А. Восприятие и распознавание образов. М.: Машиностроение, 1989. 272 с.

69. Чаудхури С., Ганти В., Дайал У. Технология баз данных в системах поддержки принятия решений // Открытые системы. 2002. № 01. С. 6779.

70. Шапот М. Интеллектуальный анализ данных в системах поддержки принятия решений // Открытые системы. 1998. № 01. С. 44-51.

71. Шарапов Р. В., Шарапова Е. В. Применение метода опорных векторов для обнаружения ссылочного спама // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды

72. XI Всероссийской научной конференции RCDL'2009. Петрозаводск, 2009. С. 318-324.

73. Шураков В. В. Надежность программного обеспечения систем обработки данных: Учебник. 2-е изд., перераб. и доп. М.: Финансы и статистика, 1987. 272 с.

74. Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей: Пер. с англ. Ю. П. Адлера, Ю. А. Кошевника. М.: Финансы и статистика, 1988. 263 с.

75. Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications / R. Agrawal et all. // Proc ACM SIGMOD Int. Conf. of Management of Data. Seattle (WA), 1998. P. 94-105.

76. Batini C., Scannapieca M. Data Quality: Concepts, Methodologies and Techniques. Berlin: Springer, 2006. 262 p.

77. Biberman Y. A context similarity measure // ECML '94: Proceedings of the European Conference on Machine Learning. Catania, 1994. P. 49-63.

78. Boriah S., Chandola V., Kumar V. Similarity measures for categorical data: A comparative evaluation // Proceedings of the 8th SIAM International Conference on Data Mining. Atlanta, 2008. P. 253-254.

79. LOF: Identifying Density-Based Local Outliers / M. Breunig et all.

80. Proceedings of the 29th ACM SIGMOD International Conference on Management of Data. Dalles (TX), 2000. P. 93-104.

81. Chambers R. Regression Analysis of Probability-Linked Data // Official Statistics Research Series, 4. 2009. 72 p. URL. www.statisphere.govt.nz/official-statistics-research/series/vol-4.htm (Дата обращения: 09.12.2011)

82. Chandola V., Banerjee A., Kumar V. Anomaly detection: A Survey // ACM Computing Surveys. 2009. Vol. 41, No. 3, Article 15. 58 p.

83. Chen E. Choosing a Machine Learning Classifier // Edwin Chen's Blog,2011. URL: http://blog.echen.me/2011/04/27/choosing-a-machine-learning-classifier (дата обращения: 12.11.2011).

84. Chowdhury A., Frieder O., Grossman D. Collection Statistics for Fast Duplicate Detection // ACM Transactions on Information Systems. 2002. Vol. 20, No. 2. P. 171-191.

85. Huang Z. Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values // Data Mining and Knowledge Discovery. 1998. №2(3). P. 283-304.

86. Data Mining Group. PMML 4.0 General Structure of a PMML Document.2012. URL: http://www.dmg.org/v4-0/GeneralStructure.html (дата обращения: 03.02.2012).

87. Data Quality Assessment: A Reviewer's Guide. EPA QA/G-9R. Washington. U. S. Enviromental Protection Agency. 2006. 61 p.

88. Data Quality Assessment: Statistical Methods for Practitioners. EPA QA/G-9S. Washington. U. S. Enviromental Protection Agency. 2006. 198 p.

89. Decision Trees Compared to Regression and Neural Networks. URL: http://dtreg.com/othermethods.htm (дата обращения: 12.11.2011).

90. Deng H., Runger G., Tuv E. Bias of Importance Measures for Multi-valued Attributes and Solutions // Proceedings of the 21st International Conference on Artificial Neural Networks. Espoo (Finland), 2011. 8 p.

91. Efron, Tibshirani R. J. An Introduction to the bootstrap. N.Y.: Chapman and Hall, 1993.456 р.

92. A geometric framework for unsupervised anomaly detection / E. Eskin et. al. // Applications of Data Mining in Computer Security. Kluwer Academic Publishers, 2002. P. 78-100.

93. Fletcher H. The 7 Best Uses for Predictive Analytics in Multichannel Marketing // Target Marketing, 2011. URL: http://www.targetmarketingmag.com/article/7-best-uses-predictiveanalytics-modeling-multichannel-marketing/ (дата обращения: 27.04.2012).

94. Friedman J. H. Greedy Function Approximation: A Gradient Boosting Machine // The Annals of Statistics. 2001. Vol. 29, No. 5, P. 1189-1232.

95. Goodall D. W. A new similarity index based on probability // Biometrics. 1966. №22(4). P. 882-907.

96. Guha S., Rastogi R., Shim K. ROCK: A robust clustering algorithm for categorical attributes // Information Systems. 2000. №25(5). P. 345-366.

97. Gulin A., Kuralenok I. YetiRank: Everybody Lies. URL. http://download.yandex.ru/company/yahoo-challenge-mn-u.pdf (Дата обращения: 22.11.2010).

98. Hautamaki V., Karkkainen I., Franti P. Outlier Detection Using k-Nearest Neighbour Graph // Proceedings of the 17th International Conference on Pattern Recognition. Cambridge (UK). 2004. Vol. 3. P. 430-433.

99. Kohavi R., Frasca В. Useflil Feature Subsets and Rough Set Reducts

100. Proceedings of the third international workshop on rough sets and soft computing. San Jose (California), 1994. P. 310-317.

101. Le S. Q., Но Т. B. An association-based dissimilarity measure for categorical data // Pattern Recogn. Lett., 2005. 26(16). P. 2549-2557.

102. Lee H.-T. IRLbot: Scaling to 6 Billion Pages and Beyond // WWW 2008: Refereed Track: Search Crawlers. 2008. Beijing. 10 p.

103. Linda 0., Manic M., Vollmer Т. Fuzzy Logic Based Anomaly Detection for Embedded Network Security Cyber Sensor // Computational Intelligence in Cyber Security. 2011. P. 202-209.

104. Mc Culloch W. S. A Logical Calculus of The Ideas Immanent In Nervous Activity // Bulletin of Methematical Biophysics. 1943. No. 5. P. 115-133.

105. Mengle S. R., Goharian N. Mining temporal relationships among categories // Proceedings of the 2010 ACM Symposium on Applied Computing. NY, 2010. 2 p.

106. Merz C. J. and Murphy P. M. UCI Repository of Machine Learning Datasets. 1998. URL. http://www.ics.uci.edu/ mleam/MLRepository.html (Дата обращения: 31.08.2012)

107. Minger J. An Empirical Comparison of Pruning Methods for Decision Tree Induction // Machine Learning. 1989. V. 4. Pp. 227-243.

108. Mitchell Т. M. Machine Learning. NY. McGraw Hill, 1997. 414 p.

109. Olson J. E. Data Quality: The accuracy dimension. San Francisco, 2003. 294 p.

110. Quinlan J. R. Generating production rules from decision trees

111. Proceedings of the 10th International Joint Conference on Artificial Intelligence. San Francisco, 1987. 4 p.

112. Quinlan J. R. Induction of Decision Trees // Machine Learning. 1986. Vol. l.P. 81-106.

113. Rabatel J., Bringay S., Poncelet P. Fuzzy Anomaly Detection in Monitoring Sensor Data. 8 p. URL. http://www.lirmm.fr/~poncelet/publications/papers/FIEEE2010.pdf (Дата обращения: 13.08.2012)

114. Reingold E. M., Tilford J. S. Tidier Drawings of Trees // IEEE Transactions of Software Engineering. 1981. Vol. SE-7, No. 2. P. 223-228.

115. Rosenblatt F., On the Convergence of Reinforcement Procedures in Simple Perceptrons // Cornell Aeronautical Laboratory Report VG-1196-G-4. Buffalo (NY), 1960. 6 p.

116. Shalizi C. Classification and regression trees. 2009. URL: http://www.stat.cmu.edu/~cshalizi/350/lectures/22/lecture-22.pdf (дата обращения: 16.06.2012)

117. Shanmugavadivu R., Nagarajan N. Network Intrusion Detection System Using Fuzzy Logic // Indian Journal of Computer Science and Engineering. 2011. Vol. 2, No. 1,P. 101-111.

118. Utgoff P. E. Incremental induction on Decision Trees // Machine Learning. 1989. V.4. P. 161-186.

119. UCI Machine Learning Repository: Flags Data Set. URL. http://archive.ics.uci.edu/ml/datasets/Flags (Дата обращения: 02.09.2012)

120. UCI Machine Learning Repository: Iris Data Set. URL. http://archive.ics.uci.edu/ml/datasets/Iris (Дата обращения: 02.09.2012)

121. UCI Machine Learning Repository. Monk's Problems Data Set. URL. http://archive.ics.uci.edu/ml/datasets/MONK%27s+Problems (Дата обращения: 02.09.2012)

122. UCI Machine Learning Repository: Statlog Heart Data Set. URL. http://archive.ics.uci.edu/ml/datasets/Statlog+%28Heart%29 (Дата обращения: 02.09.2012)

123. Wand Y., Wang R. Y. Anchoring data quality dimensions in ontological foundations // Communications of the ACM. 1996. V. 39, N. 11. P. 86-95.

124. Wang R. Y., Storey V. С., Firth С. P. A Framework for Analysis of Data Quality Research // IEEE Transactions on Knowledge and Data Engineering. 1995. Vol. 7, No. 4. P. 30-48.

125. Wang W., Yang J., Muntz R.: STING: A Statistical Information Grid Approach to Spatial Data Mining // Proc. 23th Int. Conf. on Very Large Data Bases. Athens (Greece), 1997. P. 186-195.

126. Wei Z. Service-Oriented Data Denormalization for Scalable Web Applications // WWW 2008: Refereed Track: Pefrormance and Scalability. Beijing, 2008. P. 70-80.

127. Finding centric local outliers in categorical/numerical spaces / J. Yu et al. // Knowl. Inform. Syst. 2006. Vol. 9, No. 3. P. 309-338.

128. Zandstra M. PHP Objects, Patterns and Practice. NY. Apress, 2010. 515 p.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.