Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Тверетин, Алексей Александрович

  • Тверетин, Алексей Александрович
  • кандидат технических науккандидат технических наук
  • 2010, Самара
  • Специальность ВАК РФ05.13.01
  • Количество страниц 154
Тверетин, Алексей Александрович. Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Самара. 2010. 154 с.

Оглавление диссертации кандидат технических наук Тверетин, Алексей Александрович

ВВЕДЕНИЕ.

1. ИССЛЕДОВАНИЕ ПРОБЛЕМ СРАВНЕНИЯ И КЛАССИФИКАЦИИ ДИСКРЕТНЫХ ДАННЫХ.

1.1. Базы данных как объект системного анализа.

1.2. Классификация промышленных информационных систем и данных, характеризующих эти системы.

1.2.1. Данные систем неживой природы, используемые в промышленности.

1.2.2. Данные систем живой природы, используемые в промышленности.

1.2.3. Данные систем общественных процессов, используемые в промышленности.

1.3. Анализ показателей управленческого учета и финансовых показателей предприятия.

1.4. Использование интеллектуального анализа данных в системах хранения информации.

1.5. Задачи классификации и кластеризации.

1.6. Проблемы сравнения, классификации дискретных данных.

1.7. Лингвистические методы анализа.

1.7.1. Методы выравнивания.

1.7.1.1. Методы попарного выравнивания.

1.7.1.2. Метод /-граммного разложения.

1.7.1.3. Методы выравнивания FASTA и BLAST.

1.7.2. Метод нахождения нечетких дубликатов.

I 1.8. Статистические методы представления.

1.8.1. Метод весовой матрицы.

1.8.2. Методы поиска закономерностей на основе вероятностных реляционных моделей.

1.8.3. Метод скрытых марковских моделей.

1.8.4. Метод к-плетов.

1.8.5. Метод дерева суффиксов.

1.8.6. Метод WINNOWER.:.

1.8.7. ЕМ и MEME методы.

1.9. Методы линейных преобразований.

1.9.1. Метод преобразования Фурье.

1.9.2. Метод быстрого преобразования Фурье.

1.9.3. Метод дискретного косинус-преобразования.

1.9.4. Метод преобразования Уолша.

1.9.5. Метод вейвлетного преобразования.

1.10. Выводы.

2. РАЗРАБОТКА МЕТОДОВ И АЛГОРИТМОВ.

2.1. Разработка метода сжатия дискретных данных на основе импульсного линейного преобразования.

2.2. Разработка алгоритма сравнения дискретных данных.

2.3. Разработка алгоритма классификации дискретных данных.

2.4. Выводы.

3. ИССЛЕДОВАНИЕ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ.

3.1. Оценка трудоемкости разработанного метода сжатия дискретных данных.

3.2. Разработка программного обеспечения для вычислительного эксперимента.

3.3. Исследование алгоритма сравнения числовых последовательностей.

3.4. Оценка эффективности классификации.

3.5. Выводы.

4. РАЗРАБОТКА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ НА ОСНОВЕ РАЗРАБОТАННЫХ МЕТОДОВ И АЛГОРИТМОВ.

4.1. Определение задач, решаемых информационно-аналитической системой.

4.2. Формирование требований и выбор системы интеллектуального анализа данных для построения информационно-аналитической системы.

4.3. Разработка структуры данных для анализа

4.4. Разработка процедуры предварительной обработки данных.

4.5. Разработка структуры модуля сравнительного анализа бюджета.

4.6. Разработка структуры модуля ретроспективного анализа показателей бюджета.

4.7. Разработка пользовательского интерфейса системы.

4.8. Выводы.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Обработка информации на основе спектрального импульсного преобразования для сравнения и классификации дискретных данных, циркулирующих в промышленном предприятии»

Актуальность работы. В настоящее время продолжается вторичная автоматизация промышленных предприятий, которая заключается в интеграции применяемого программного обеспечения с целью получения единого хранилища данных, циркулирующих внутри предприятия. Помимо сложностей, связанных с разными платформами и программными средами, в которых функционируют различные средства автоматизации, существуют сложности, связанные с разнородностью структуры данных. В CBeie современной рыночной ситуации от оперативности работы и осведомленности управленческого персонала зависит порой эффективность работы всего предприятия.

Не смотря на то, что активно внедряемые системы ERP (enterprise resource planning, корпоративное планирование ресурсов), предназначенные для интеграции данных о функционировании предприятия, обладают богатыми возможностями, анализ оперативных данных о функционировании предприятия в них затруднен из-за реляционной модели данных.

Рутинной операцией при анализе данных является сравнительный ее анализ. Он сводится обычно к сравнению агрегированных суммовых показателей за период, обычно месяц, что не позволяет судить об изменении показателей внутри периода. Таким образом, сравнительный анализ, и в частности, идентификация по фактическим данным одного из запланированных сценариев развития 1 событий, оказывается затруднительным, так как при схожих трендах математического ожидания показателей на определенном i периоде, могут наблюдаться различные варианты распределения данного параметра внутри периода.

Другим важным видом анализа, является ретроспективный анализ изменения показателей, характеризующих определенные аспекты функционирования предприятия, когда требуется идентифицировать функциональный класс принадлежности вариаций показателя на данном интервале. Введение конечного количества классов, позволяет сильно облегчить анализ процессов на предприятии для управляющего персонала I предприятия.

Вышеописанные задачи сводятся к классификации дискретных данных, а именно к классификации изменения того или иного показателя во времени на определенном интервале. Вообще говоря, задача классификации дискретных данных актуальна при контроле любых производственно-экономических показателей во времени характеризующих какой-либо процесс, описывающий состояние предприятия или отдельных его частей.

На данный момент широкое распространение получили системы интеллектуального анализа (data mining), которые решают задачи классификации, регрессии и ряд других задач. Эти программные средства на данный момент повсеместно применяются на практике для работы с используемыми на предприятиях СУБД (системами управления базами , данных) и фактически не имеют альтернатив.

Широко распространенные и доступные системы интеллектуального анализа данных обычно содержат набор достаточно примитивных алгоритмов (метод ближайших соседей, метод наивного байеса и других), которые работают с небольшим количеством фиксированных признаков, что не позволяет решить поставленную задачу классификации, так как I количество анализируемых признаков может быть большим. Кроме того, количество признаков может меняться в зависимости от характера данных. Также, ограничения на применение данных средств накладывает природа анализируемых данных, которая заключаются в присутствии небольших искажений последовательности и неопределенном положении начальной фазы.

Таким образом, актуальной задачей является разработка методов и алгоритмов, которые позволяют без увеличения затрат на более сложные аналитические средства, достигать решения таких сложных задач, как классификация и сравнение дискретных данных, используя стандартные и хорошо апробированные системы интеллектуального анализа данных.

Целью работы разработка методов и алгоритмов обработки I информации на основе сжатия дискретных данных, циркулирующих в промышленном предприятии, для их сравнения и классификации с использованием систем интеллектуального анализа данных.

Основные задачи. Для достижения поставленной цели в диссертационной работе решаются следующие задачи исследования:

1. анализ проблем, возникающих при исследовании дискретных данных, циркулирующих в промышленном предприятии с целью определения наиболее перспективных методов преобразования для облегчения их сравнения и классификации;

2. разработка метода сжатия дискретных данных с помощью спектрального импульсного преобразования;

3. разработка алгоритма сравнения дискретных данных;

4. разработка алгоритма классификации дискретных данных с использованием сжатия и метода наивного байеса;

5. оценка трудоемкости метода сжатия дискретных данных и его сравнение с широко используемыми методами;

6. проведение численных экспериментов с целью изучения свойств разработанных алгоритмов;

7. разработка программного обеспечения, реализующего разработанные методы и алгоритмы для решения задач сравнительного анализа бюджетов и ретроспективного анализа финансовых показателей предприятия.

Методы исследования базируются на комплексном применении системного анализа, теории реляционных баз данных, теории вероятностей, теории спектрального представления данных, методах интеллектуального анализа данных.

Научная новизна и значимость работы заключается в следующих полученных результатах: 1

1. разработан метод сжатия дискретных данных на основе спектрального импульсного преобразования, который в отличие от других методов инвариантен к положению начальной фазы дискретной последовательности данных, и малочувствителен к незначительным изменениям данных;

2. разработан алгоритм сравнения дискретных данных, который основан на анализе евклидова расстояния между значениями гармоник спектра, полученных в результате предварительного сжатия данных, и который в отличие от других алгоритмов позволяет сравнивать дискретные последовательности с неопределенным положением начальной фазы;

3. разработан алгоритм классификации дискретных данных, использующий в качестве признаков значения гармоник спектра, полученного в результате предварительного сжатия данных, который за счет уменьшения признаков имеет меньшую трудоемкость в отличие от других алгоритмов, а так же позволяет проводить классификацию дискретных последовательностей с разным положением начальной фазы.

Практическая полезность работы: ,

1. разработанный метод сжатия дискретных данных на основе спектрального импульсного преобразования, а также алгоритмы сравнения и классификации могут использоваться для построения информационно-аналитических систем на базе промышленных СУБД с использованием стандартной функциональности;

2. разработан комплекс прикладных программ, автоматизирующий процесс сравнительного анализа бюджетов, а также ретроспективного анализа изменения финансовых коэффициентов;

3. разработанные методы и алгоритмы могут служить основой для создания информационно-аналитических систем для анализа произвольных дискретных данных, характеризующих процессы, описывающие состояние предприятия.

Внедрение результатов работы. Разработанная информационно-аналитическая система, в части разработанных методов и алгоритмов внедрена в ЗАО «УР БО», ЗАО «Тюменский судостроительный завод», ООО «Парус-Самара», ООО «Системы управления бизнесом» и используются в практической деятельности, что подтверждено актами о внедрении.

Апробация работы. Основные результаты работы докладывались и обсуждались на всероссийских научно-технических конференциях «Наука. Технологии. Инновации» (г.Новосибирск, 2005г.), «Приоритетные направления развития науки, технологий и техники» (г.Москва, 2008 г.).

Публикации. Основное содержание диссертации изложено в 11 публикациях, в том числе в 2 статьях в журналах рекомендованных ВАК.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы. Она изложена на 154 страницах, содержит 57 рисунков, 14 таблиц и библиографический список из 110 наименований.

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Тверетин, Алексей Александрович

4.8 Выводы

Обобщая вышеизложенное, можно сделать следующие выводы:

1. для построения информационно-аналитической системы ввиду сокращения трудозатрат, наиболее целесообразно использовать готовые программные продукты класса систем глубинного анализа данных;

2. сформированные требования к системе глубинного анализа данных позволяют сделать оптимальный выбор при построении информационно-аналитической системы;

3. сформированным требованиям больше всего удовлетворяет система Oracle Data Mining, главными преимуществами которой являются минимальная нагрузка на аппаратные средства и максимальное удобство работы с данными;

4. для построения информационно-аналитической системы решен ряд задач (определение источника данных для анализа, разработка процедур предварительной обработки данных, разработка алгоритма функционирования системы, настройки используемой системы глубинного анализа данных и др.);

5. разработанная программная 1 реализация методики сравнения последовательностей позволяет решать задачу сравнительного анализа I бюджета без значительных трудозатрат на модификацию используемой учетной системы;

6. разработанная информационно-аналитическая система ретроспективного анализа финансовых показателей позволяет на основе исторических данных осуществлять классификацию последовательностей показателей, что позволяет быстро получать информацию о качественных характеристиках;

7. разработанная информационно-аналитическая система при минимальных изменениях в части замены источника данных позволяет проводить классификацию данных, характеризующих любые производственные либо финансовые процессы на предприятии, в том числе и для решения задач прогнозирования.

ЗАКЛЮЧЕНИЕ

В ходе выполнения диссертационной работы автором были получены следующие основные результаты:

1. проанализированы принципы хранения данных, циркулирующих в промышленном предприятии, которые состоят в применении СУБД клиент-серверной архитектуры;

2. рассмотрены данные, которые необходимы для формирования управляющих воздействий в виде принятия решений персоналом предприятий;

3. произведен анализ подходов для интеллектуального анализа данных, которые состоят в применении специализированных программных продуктов, осуществляющих интеллектуальный анализ данных;

4. проанализированы проблемы, существующие при распознавании дискретных данных, характеризующих процессы, протекающие на предприятии, приведены принципы классификации данных;

5. проведен обзор методов преобразования данных, который показал, что наиболее перспективными являются методы спектральных преобразований, которые оперируют с реализациями случайного дискретного сигнала, приведены достоинства и недостатки методов;

6. разработан метод сжатия дискретных данных на основе спекфального импульсного преобразования, который инвариантен к сдвигу и обладает чувствительностью к небольшим изменениям сигнала, не влияющим на функциональные характеристики;

7. разработан алгоритм сравнения дискретных данных, который основан на анализе евклидова расстояния спектральных значений, полученных в результате предварительного сжатия;

8. разработан алгоритм классификации дискретных данных, который использует в качестве признаков спектральные значения, полученные в результате предварительного сжатия, что позволяет применять стандартные средства интеллектуального анализа данных;

9. произведена оценка трудоемкости метода сжатия дискретных данных, которая близка к трудоемкости БПФ;

10. произведены исследования разработанного алгоритма сравнения, которые показали, что значения векторов спектров хорошо характеризуют сигналы с идентичными функциональными характеристиками, в том числе сдвинутые относительно друг друга;

11. произведенные исследования разработанного алгоритма сравнения показали, что при значительной деформации сигнала информативность расстояний между векторами падает с увеличением номера измерения, расстояние же между векторами целесообразно использовать в качестве меры связи;

-I

12. произведены исследования разработанного алгоритма классификации, которые показали, что расстояние между вектором и началом координат целесообразно использовать в качестве характеристики для классификации' последовательностей;

13. произведенные исследования разработанного алгоритма классификации, показали, что использование расстояния между вектором и началом координат в качестве характеристики для классификации последовательностей дает малые значения потерь даже при близких математических ожиданиях сигналов;

14. сформированы требования к системе интеллектуального анализа данных для построения информационно-аналитических систем для анализа дискретных данных;

15. разработана информационно-аналитическая система сравнительного анализа бюджета, позволяющая определить наиболее близкий плановый вариант, а также позволяющая осуществлять ретроспективный анализ финансовых показателей, решен ряд задач для построения системы;

16. разработанная информационно-аналитическая система при минимальных изменениях в части замены источника данных позволяет проводить классификацию данных, характеризующих любые производственные либо финансовые процессы на предприятии, в том числе и для решения задач прогнозирования.

Список литературы диссертационного исследования кандидат технических наук Тверетин, Алексей Александрович, 2010 год

1. Айфичер Э.С. Цифровая обработка сигналов: практический подход, 2-е издание.: Пер. с англ. / Э.С. Айфичер. М: Издательский дом «Вильяме», 2004. — С. 171-173.

2. Баронов В. В. Автоматизация управления предприятием / В. В. Баронов. М: ИНФРА-М, 2000. — С. 127-128.

3. Барсегян А. А. Методы и модели анализа данных: OLAP и Data Mining / А. А. Баргесян, М.С. Куприянов, В.В. Степаненко, И.И. Холод. СПб: БХВ-Петербург, 2004. — С. 67-128.

4. Бахрушин А.П. Спектральный анализ электрокардиограмм на основе комплексной системы импульсных функций / А.П. Бахрушин, Г.И. Бахрушина C.B. Сай, Е.В. Храмова // Телекомуникации: Наука и технологии, Москва, 2001. - С.43-48.

5. Белов- В. С. Информационно-аналитические системы. Основы проектирования и применения: учебное пособие, руководство,-практикум / В. С. Белов. М: Московский государственный университет экономики, статистики и информатики, 2000. - С. 85-86.

6. Бочаров Е.П. Интегрированные корпоративные информационные системы: Принципы построения. Лабораторный практикум на базе системы «Галактика»: Учеб. Пособие / Е.П. Бочаров, А.И. Колдина. -М.: Финансы и статистика, 2005. С. 34-39.

7. Бурнаев Е.В. Мера близости для временных рядов на основе вейвлет коэффициентов / Е.В. Бурнаев , H.H. Оленев // Тр. XLVIII научн. конф. МФТИ. Долгопрудный: ФУПМ, Москва, 2005. - С. 108ii

8. Виткалова А.П. Бюджетирование и. контроль затрат организации / А.П. Виткалова, Д.П. Миллер -М.: Альфа-Пресс, 2006. 104 с.

9. Витяев Е.Е. Обнаружение закономерностей (методология, метод,программная система SINTEZ). 1. Методология / Е.Е. Витяев //139

10. Методологические проблемы науки (Вычислительные системы). — Новосибирск, 1991. № 138. - С. 26-60.

11. Ю.Витяев Е.Е. Введение в теорию открытий. Программная система DISCOVERY / Е.Е. Витяев, А.А. Москвитин // Логические методы в информатике. Вычислительные системы. Новосибирск, 1993. - № 148. -С. 117-163.

12. П.Гаврилов Д. А. Управление производством на базе стандарта MRP II / Д. А. Гаврилов. СПб: Питер, 2002. — 320 с.

13. Гасанов Э.Э. Теория хранения и поиска информации / Э.Э. Гасанов, В.Б. Кудрявцев. -М.: ФИЗМАТЛИТ, 2002. С. 13-15.

14. Гасфилд Д. Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология / Д. Гасфилд. СПб.: Невский Диалект, 2003. - 654 с.

15. Гайдамакин Н.А. Автоматизированные информационные системы, базы и банки данных. Вводный курс / Н.А. Гайдамакин. М.: Гелиос АРВ, 2002. - С.204-205.

16. Гольденберг Л.М. Цифровая обработка сигналов: Учеб. Пособие для вузов / Л.М. Гольденберг, Б.Д. Матюшкин, М.Н. Поляк М.: Радио и связь, 1990.-С. 123-143.

17. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс -М.: Техносфера, 2005. С.231-232.

18. Дейт К. Введение в системы баз данных, 7-е издание.: Пер. с англ. / К. Дэйт. — М.: Издательский дом «Вильяме», 2001. С.37-38.

19. Духонин Е.Ю. Управление эффективностью бизнеса. Концепция Business Performance Management / Е.Ю. Духонин, Д.В. Исаев, Е.Л. Мостовой и др. ; Под ред. Г.В. Генса. — М. : Альпина Бизнес Букс, 2005. 269 с .

20. Елашкин M. SAP Business One. Строим эффективный бизнес / М. Елашкин. М.: КУДИЦ-ПРЕСС, 2007. - С. 105-109.

21. Елиферов В.Г. Бизнес-процессы: Регламентация и управление: Учебник / В.Г. Елиферов, В.В. Репин М.: ИНФРА-М, 2005. - С.5-6.

22. Емельянова Н. 3. Основы построения автоматизированных информационных систем: Учебное пособие / Н.З. Емельянова, T.J1. Патырка, И.И. Попов. М.: ФОРУМ: ИНФРА-М, 2007. - С.12-16.

23. Карминский'A.M. Информационные системы в экономике: В 2-х ч. 4.1. Методология создания: Учеб. Пособие. / A.M. Карминский, Б.В. Черников М.: Финансы и статистика, 2006. — 336 с.

24. Карминский A.M. Информационные системы в экономике: В 2-х ч. 4.2. Практика использования: Учеб. Пособие. / A.M. Карминский, Б.В. Черников М.: Финансы и статистика, 2006. — 240 с.

25. Ковалев В.В. Финансовый анализ: Управление капиталом. Выбор инвестиций. Анализ отчетности / В.В. Ковалев. — М.: Финансы и статистика, 1997. С. 493 - 502.

26. Конноли Т. Проектирование, реализация и сопровождение. Теория и практика. 3-е издание. : Пер. с англ. / Т. Конноли, К. Бегг. М.: Издательский дом «Вильяме», 2003. — 1440 с.

27. Крёнке Д. Теория и практика построения баз данных. 8-е изд. / Д. Крёнке. СПб.: Питер, 2003. - С.647 - 648.

28. Курникова E.JI. Основы статистики / E.JI. Курникова, JI.B. Тарлецкая -М.: МГИМО, 2008. 144 с.

29. Лобзин В.В. Порядок и1 корреляции в геномных последовательностях ДНК. Спектральный подход / В.В. Лобзин, В.Р. Чечеткин // Успехи физических наук. 2000. - Т. 170, № 1. - С.57-81.

30. Макеев В.Ю. Статистика периодических закономерностей в последовательностях нитронов человека / В.Ю. Макеев, Г.К. Франк, В.Г. Туманян // Биофизика. 1996. - Т. 41, № 1. - С. 241-246.

31. Моисеев H.H. Человек, среда, общество / H.H. Моисеев. М.: Наука, 1982.-С. 30-33.

32. Нестеров A.Jl. Проектирование АСУТП. Методическое пособие. Книга 1 / А.Л. Нестеров. СПб.: Издательство ДЕАН, 2006. - С. 61-62.

33. Новиков Л.В. Основы вейвлет-анализа сигналов. Учебное пособие / Л.В. Новиков. СПб: МОДУС+, 1999. — С. 140-142.

34. Новосельцев В.И. Теоретические основы системного анализа / В.И. Новосельцев и др.; под ред. В.И. Новосельцева. М.: Майор, 2006. -С. 46-47.

35. Рыбников А.И. Система управления предприятием типа ERP / А.И. Рыбников. М.: Азроконсалт, 1999. - 214 с.

36. Рыбников А.И. Система управления предприятием типа MRP II / А.И. Рыбников. М.: Азроконсалт, 1999. - 134 с.

37. Сергиенко А.Б. Цифровая обработка сигналов / А.Б. Сергиенко. — СПб.: Питер, 2003.-604 с.

38. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в MATLAB / Н.К. Смоленцев. М.: ДМК Пресс, 2005. - С. 36-37.

39. Соломенцев Ю.М. Информационно-вычислительные системы в машиностроении CALS-технологии / Ю.М. Соломенцев, В.В. Павлов, A.B. Рыбаков. М.: Наука, 2003. - С.35 - 51.

40. Теплова Т.В. Планирование в финансовом менеджменте / Т.В. Теплова. М.: ГУ ВШЭ, 1998. - С.85 - 91.

41. Ту Д. Принципы распознавания образов.: Пер. с англ. / Д. Ту, Р. Гонсалес. М.: Мир, 1978. - С.290 - 294.

42. Фитцджеральд Г. Информационные системы для руководителей / Г. Фитцджеральд // Информационные технологии в бизнесе. — СПб.: Питер, 2002. С.841 - 853.

43. Фролов A.B. Базы данных в Интернете: практическое руководство по созданию Web-приложений с базами данных. Изд. 2-ое, испр / A.B. Фролов, Г.В. Фролов - М.: Издательско-торговый дом «Русская Редакция», 2000. - С. XX-XXI.

44. Ярославский Л.П. Введение в цифровую обработку изображений / Л.П. Ярославский. М.: Сов. радио, 1979. - С. 134-139.

45. Altschul S.F., Basic local alignment search tool7 S.F. Altschul, W. Gish, W. Miller, E.W. Myers, D.J. Lipman // J. Mol. Biol. 1990. - Vol. 215. - P. 403-410;

46. Bailey T.L. Unsupervised learning of multiple motifs in biopolymers using expectation maximization / T.L. Bailey, C. Elkan. // Machine Learning.1995.-Vol. 21.-P. 51-80.

47. Broder A. Syntactic clustering of the Web. / A. Broder, S. Glassman, M. Manasse, G. Zweig // Proc of the 6th International World Wide Web Conference. 1997. -P.391-404.

48. Broder A. On the resemblance and containment of documents / A. Broder // Compression and Complexity of Sequences. 1998. - P. 21-29.

49. Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences / P. Bucher // J.Mol.Biol. 1990. - Vol. 212. - P. 563-578.

50. Charikar M. Min-wise independent permutations / A. Broder, M. Charikar et al. // Proceedings of the thirtieth annual ACM symposium on Theory of computing. 1998. -P.327-336.

51. Chen W. A fast computational algorithm for the discrete cosine transform / W. Chen, C.H. Smith, S.C. Fialick // IEEE Trans. Communications. 1977. -Vol. 25.-P. 1004-1009.

52. Chowdhury A. Collection statistics for fast duplicate document detection / A. Chowdhury, O. Frieder, D. Grossman, M. McCabe // ACM Transactions on Information Systems. 2002. - Vol. 20, №2. -P.171-191.

53. Codd E.F. A relational model of .data for large shared data banks / E.F. Codd // Comm.ACM. 1970. Vol. 13(6). - P.377-387.

54. Cooley J.W. An algorithm for the machine calculation of complex Fourier series / J.W. Cooley, J.W. Tukey // Mathematics Computation. 1965. Vol. 19.-P. 297-301.

55. Collins A. Likelihood ratios for DNA identification / A. Collins, N. Morton // Proc Natl Acad Sci USA.- 1994. Vol. 91 (13). - P. 6007 - 6011.

56. Cooper M.C. Supply Chain Management: More Than a New Name for1.gistics // M.C. Cooper , D.M. Lambert, J. Pagh // The Internationali

57. Journal of Logistics Management. 1997. - Vol 8, Iss 1. - P. 1-14

58. Daniell H. Multigene engineering: dawn of an exciting new era in biotechnology / H. Daniell, A. Dhingra // Curr Opin Biotechnol. 2002. -Vol. 13 (2).-P. 136- 141.

59. Dempster A.P. Maximum likelihood from incomplete data via the EM algorithm / A.P. Dempster, N.M. Laird D.B. Rubin // J. R. Stat. Soc. Series B.- 1977.-Vol.39.-P. 1-38.

60. Durbin R. Biological sequence analysis / R. Durbin, S.R. Eddy, A. Krogh, G. Mitchson. Cambridge: Cambridge University Press, 1998. - 356 p.

61. Fetterly D. A Large-Scale Study of the Evolution of Web Pages / D. Fetterly, M. Manasse, M. Najork // WWW2003. 2003. - P.669-678.

62. Feuerstein S. Oracle PL/SQL Programming, Fifth Edition / S. Feuerstein, B. Priby. Sebastopol: O'Reilly Media, Inc. - 2007. - P. 172 - 173.

63. Friedman N. Learning Probabilistic Relational Models / N. Friedman, L. Getoor, D. Koller, A. Pfeffer // Proceedings of the Sbdeenth International Joint Conference on Artificial Intelligence. 1999. - Stockholm. P. 13001307.

64. Gentleman W.M. Fast Fourier transforms for fun and profit / W.M. Gentleman, G. Sande // Fall Joint Computing Conf., AFIPS Proc. 1966. -Vol.29.-P.563-578.

65. Glen S.P. High-Impact Sales Force Automation: A Strategic Perspective / S.P. Glen. Saint Lucie.: Taylor & Francis, 1997. - 277 p.

66. Gusfield D. Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology / D. Gusfield. Cambridge: Cambridge University Press, 1997. - 530 p.

67. Heintze N. Scalable document fingerprinting / N. Heintze // In Proc. of thei2nd USENIX Workshop on Electronic Commerce 1996. - P.l-10.

68. Henikoff S. Embedding strategies for effective use of information from multiple sequence aligimients / S. Henikoff, J.G. Henikkof // Protein Sci. -1997. Vol.6.-P. 698-705.

69. Jeffreys A. Individual-specific 'fingerprints' of human DNA // A. Jeffreys, V. Wilson, S. Thein // Nature. 1992. - Vol. 316 (6023). P. 76 -79.

70. Job D. Plant biotechnology in agriculture / D. Job // Biochimie. 2002. -Vol. 84 (11).-P. 1105-1110.

71. Karlin M. New approaches for computer analysis of nucleic acid sequences / M. Karlin, G. Ghandour, F. Ost, S. Tavare, L.J. Korn // Proc Natl Acad Sci USA. 1983. - Vol. 80. - P. 5660-5664.

72. Karlin S. Applications and statistics for multiple high-scoring segments in molecular sequences / S. Karlin, S.F. Altschul // Proc Natl Acad Sci USA.1997. Vol. 90. - P. 5873-5877.i

73. Kielbasa S.M. Combining frequency and positional information to predict transcription factor binding sites / J.O. Korbel, D. Beule, J. Schuchhardt, H. Herzel // Bioinformatics. 2001. - Vol. 17. - P. 1019-1026.

74. Kovalerchuk B. Data Mining in finance: Advances in Relational and Hybrid Methods. / B. Kovalerchuk, E. Vityaev. Massachusetts: Kluwer Acadcmic Publishers 2000. - 308 p.

75. Krantz D.H. Foundations of measurement. Vol. 1,2,3 / D.H. Krantz, R.D. Luce, P. Suppes, A. Tversky. London: Acad, press, 1971. - 577 p., 1989. -493 p., 1990.-356 p.

76. Kurtz S. REPuter: fast computation of maximal repeats in complete genomes / S. Kurtz, C. Schleieraiacher // Bioinformatics. 1999. - Vol. 15, №5. - P. 426-427.

77. Lawrence C.E. An expectation maximization (EM) algorithm for the identification and characterization of common sites in unaligned biopolymer sequences / C.E. Lawrence, A.A. Reilly // Proteins. 1990. - Vol.7. - P. 4151.

78. Lukashin A.V. GeneMark.lmmi: new solutions for gene finding / A.V. Lukashin, M. Borodovsky // Nucleic Acids Res. 1998. - Vol. 26, №4. - P. 1107-15.

79. Makeev V.Ju. Search of periodicities in primary structure of biopolymers: a general Fourier approach / V.Ju. Makeev, V.G. Tumanyan // Comput Appl Biosci. 1996. - Vol. 12, №1. - P. 49-54

80. Manber U. Finding Similar Files in a Large File System / U. Manber // Winter USENIX Technical Conference. 1994. - P. 1-10.

81. Marsan L. Algorithms for extracting structured motifs using a suffix tree with an application to promoter and regulatory site consensus identification / L. Marsan, M.F. Sagot // J'Comput Biol. 2000. - Vol.7. - P.345-362.

82. Martinez H.M. An efficient method for finding repeats in molecular sequence / H.M. Martinez // Nucl Acids Res. 1983. - Vol. 11. - P. 46294634.

83. Mount D.W. Bioinformatics. Sequence and genome analysis / D.W. Mount. -New York: CSHL Press, 2001. 564p.

84. Narasinka M.J. On the computation of the discrete cosine transform / M.J. Narasinka, A.M.Petersen //IEEE Trans. Communications. 1978. - Vol. 26. - P.934-936.

85. Needleman S.B. A general method applicable to the search for similarities in the amino acid sequence of two proteins / S.B. Needleman, C.D. Wimsch // JmolBiol. 1970. - Vol. 48, №3. - P. 443-553.

86. Palle E.T. Analysis and probability Wavelets, Signals, Fractals / E.T. Palle. -Berkeley: Springer Science + Business Media, LLC, 2006. 279 p.

87. Pavesi G. An algorithm for findmg signals of unknown length in DNA sequences. / G. Pavesi, G. Mauri, G. Pesole // Bioinformatics. 2001. -Vol.17.-P.207-214.

88. Pearson W.R. Improved tools for biological sequence comparison / W.R. Pearson, D.J. Lipman // Proc Nat Acad Sci USA. 1988. - Vol. 85. - P. 2444-2448.

89. Pesole G. PatSearch: a pattern matcher software that finds functional elements in nucleotide arid protein sequences and assesses their, statistical significance / G. Pesole, Si Liuni M. Dsouza // Bioinformatics: 2000. -Vol.16. -P.439-450.

90. Pevzner P.A. Combinatorial approaches to finding subtle signals in DNA sequences / P.A. Pevzner, S.H. Sze // Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology. 2000. - P.269-278.

91. Rackovsky S. "Hidden" sequence periodicities and protein architecture / S. Rackovsky // Proc Natl Acad Sci USA. 1998. - Vol. 95, №15. - P. 85808584. '

92. Stormo G.D: DNA binding sites: representationvand discovery / G.D: Stormo //Bioinformatics. 2000. - Vol: 16: '- P.16-23.

93. Stuckle E.E. Statistical analysis of nucleotide sequences / E.E. Stuckle, C. Emmrich, U. Grob, P.J. Nielsen // Nucleic Acids Research. -1990. Vol. 18. - P. 6641-6647.

94. Tatusov R.L. Detection of conserved segments in proteins: iterative scanning of sequence databases with alignment blocks / R.L. Tatusov, S.F. Altschul, E.V. Koonin // Proc Natl Acad Sci USA. 1994*. - Vol. 91. - P. 12091-12095;

95. Tatusova T.A. BLAST 2 Sequences, a new tool for comparing protein and nucleotide sequences / T.A. Tatusova, T.L. Madden // FEMS Microbiol Let. 1999. - Vol. 174. - P. 247-250.

96. Tiwari S. Prediction of probable genes by Fourier analysis of genomic sequences / S. Tiwari, S. Ramachandran, A. Bhattacharya, S. Bhattacharya, R. Ramaswamy // ComputAppl Biosci. 1997. - Vol. 13, №3. - P. 263-270.

97. Viterbi A.J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm / A.J. Viterbi // IEEE Trans. Informat Theory. 1967. Vol. 1T-13. - P. 260-269.

98. Wallin E. Fast Needleman-Wunsch scanning of sequence databanks on a massively parallel computer / E. Wallin, C. Wettergren, F. Hedman, G. von Heijne // Comput Appl Biosci. 1993. - Vol. 9, №1. - P.l 17-8.

99. Weiner P. Linear pattern matching algorithm / P. Weiner // Proc. Of the 14th IEEE Symp. On Switching and Automata Theory. 1973. - P.l-11.

100. Zhang M.Q. Promoter analysis of co-regulated genes in the yeast genome / M.Q. Zhang // Comp. & Chem. 1999. - Vol. 23. - P.233-250.

101. Zhu J. Cluster, function and promoter: analysis of yeast expression array / J.Zhu, M.Q. Zhang // Proceedings of Pacific Symposium on Biocomputing. 2000. - Vol.5. - P. 476-487.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.