Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Киреев, Василий Сергеевич

  • Киреев, Василий Сергеевич
  • кандидат технических науккандидат технических наук
  • 2008, Москва
  • Специальность ВАК РФ05.13.01
  • Количество страниц 149
Киреев, Василий Сергеевич. Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов: дис. кандидат технических наук: 05.13.01 - Системный анализ, управление и обработка информации (по отраслям). Москва. 2008. 149 с.

Оглавление диссертации кандидат технических наук Киреев, Василий Сергеевич

Введение.

Глава 1 Сравнительный анализ подходов к решению задачи кластерного анализа.

1.1. Проблема кластеризации данных.

1.1.1. Постановка задачи кластерного анализа.

1.1.2. Измерение расстояния между объектами.

1.1.3. Функционалы качества разбиения.

1.1.4. Подходы к решению задачи кластеризации.

1.2. Методы кластерного анализа.

1.2.1. Методы, основанные на представлении выборки в виде графа.

1.2.1.1. Метод КНП (кратчайшего наименьшего пути).

1.2.2. Иерархические методы.

1.2.2.1. Агломеративные методы.

1.2.2.2. Агломеративные методы на основе свойства редуктивности.

1.2.2.3. Дивизимные методы.

1.2.3. Параллельные итеративные методы.

1.2.3.1. Метод FOREL.

1.2.4. Последовательные итеративные методы.

1.2.4.1. Кластеризация Expectation Maximization.

1.2.4.2. Метод k-средних МакКуина.

1.2.5. Нейросетевые методы.

1.2.5.1. Сети Кохонена.

1.2.5.2. Рекуррентные сети Хопфилда.

1.3. Сравнительный анализ методов кластеризации.

1. 4. Постановка задачи диссертации.

Выводы.

Глава 2. Новые математические методы решения задачи кластеризации.

2.1. Решение задачи таксономии.

2.1.1. Постановка задачи.

2.1.2. Теоретические основы метода «карманной» кластеризации.

2.1.3. Зависимость кластерного решения от значений параметров метода.

2.2. Кластеризация методом многоэкстремальной оптимизации.

2.2.1. Постановка задачи.

2.2.2. Теоретические основы метода Q-кластеризации.

2.1.5. Зависимость кластерного решения от значений параметров метода.

2.1.6. Применимость метода Q-кластеризации.

Выводы.

Глава 3. Кластеризация потребителей рынка банковских услуг в РФ.

3.1. Задача кластеризации потребителей банковских услуг.

3.2 Сокращение пространства признаков выборки.

3.2.1. Поиск оптимального числа факторов.

3.2.2. Интерпретация полученных факторов.

3.3. Сегментация методом «карманной» кластеризации.

3.3.1. Реализация метода «карманной» кластеризации.

3.3.2. Построение кластерного решения.

3.3.3. Построение профилей и интерпретация сегментов.

3.3.4. Управленческие рекомендации по результатам сегментирования.

Выводы.

Глава 4. Исследование профессиональных компетенций ИКТ в рамках Федеральной целевой программы.

4.1. Задача выделения пула учителей-инноваторов.

4.2. Сокращение пространства признаков выборки.

4.2.1. Поиск оптимального числа факторов.

4.2.2. Интерпретация полученных факторов.

4.3. Сегментация методом Q- кластеризации.

4.3.1. Реализация метода Q-кластеризации.

4. 3. 2. Построение оптимального разбиения.

4.3.3. Исследование качества полученного кластерного решения.

4.3.4. Интерпретация сегментов.

4.4. Результаты многофакторного анализа.

4.5. Методы кластерного анализа для определения рейтинга студентов.

Выводы.

Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы двухэтапной и многокритериальной кластеризации данных выборок больших объемов»

Решение задачи кластеризации, то есть разбиения исходной совокупности объектов на группы со схожими в смысле какого-либо критерия свойствами, является актуальным для многих приложений, где возникает проблема анализа большого объёма информации - в экологических, медицинских, социологических, экономических и маркетинговых исследованиях.

Задача кластеризации или таксономии впервые была рассмотрена в 1930-х годах. Эту проблему в её различных аспектах изучали как зарубежные, так и отечественные исследователи, в том числе: МакКуин Д., Ланс У., Уильяме Д., Хартиган Д., Вонг М., Кохонен Т., Фрицке Б., и Колмогоров А.Н., Загоруйко Н.Г., Ёлкина В.Н., Айвазян С.А., Мхитарян B.C., Щумский С.А., и другие.

Кластеризация позволяет среди всей совокупности объектов и их свойств уловить определённые закономерности и тенденции. Разработка простых и быстрых методов кластеризации, не зависящих от параметров, значения которых редко можно знать априорно, имеет особую актуальность при решении практических задач в области социальных и экономических приложений, когда точность полученных кластерных решений имеет решающее значение.

Виды задачи разбиения отличаются от приложения к приложению, однако можно выделить несколько общих типов:

• задачи таксономии, в которых требуется построить не просто разбиение данных на кластеры, а иерархию вложенности кластеров друг в друга - таксономическое дерево или, иначе, дендрограмму;

• задачи выделения естественного расслоения исследуемой совокупности на кластеры, причём в такой трактовке задача кластеризации может и не иметь решения; например, может оказаться, что все объекты образуют единственный кластер;: • задачи^ разбиения; выборочной совокупности на несколько: групп, так что объекты, внутри: одной группы обладают сравнительно большим сходством друг с другом, чем с объектами из других групп. Кластеризация данных, как видно из изложенного выше, относится к задачам, содержащим высокую степень неопределённости, как в отношении требуемого результата, так. и в отношении- априорных данных. Эта неопределённость сосредоточена в основном в двух ключевых моментах -способе измерения однородности объектов и оценке качества полученного" кластерного решения. Указанные проблемы- более подробно; освещаются в следующих разделах.

Проблема кластеризации данных обычно рассматривается в двух различных вариантах постановки - нахождения естественного расслоения кластеров и нахождения кластеров в виде групп близких объектов; Первый вариант может и не иметь решения, например, в случае, если - исходные данные представляют собой один большой кластер, однако второй вариант, имеет решение всегда, и представляет .наибольший интерес для, исследователей. Кластерные процедуры для нахождения; схожих объектов; можно разделить на; два общих типа "— агломеративные" (дивизимные) и итеративные. Агломеративные процедуры, такие как древесная кластеризация; применяются для сравнительно-небольших выборок данных — от десятков до сотни объектов, так; как при увеличении числа объектов наглядность и вычислительная эффективность этих процедур резко снижается; На практике же изучаемые выборки обладают объёмом от сотен до нескольких тысяч;, и здесь применяются уже итеративные и кластер-процедуры. В итеративных процедурах на каждом шаге работы рассматривается только один объект и производится его отнесение к одному из кластеров; работа процедуры заканчивается, когда получается устойчивое разбиение на кластеры или достигнуто заданное число итераций.

Основной итеративный метод, реализованный в многочисленных программах обработки данных (Statistica, Statgraphics, SPSS, и т.д.), и описанный в различных публикациях и изданиях, метод k-средних, является достаточно простым и в тоже время позволяет получить разбиение оптимальное в смысле заданного Q - критерия качества. К таким критериям относят в том числе межкластерное расстояние, внутрикластерное рассеяиие и многие другие. Тем не менее, этот метод обладает существенными недостатками: а) необходимость применения процедуры несколько раз для различного числа кластеров К, для выбора разбиения с лучшим значением критерия (или критериев) качества Q; б) стремление метода к выделению сферических кластеров, что не всегда соответствует оптимальному разбиению; в) отсутствие гарантии получения устойчивого разбиения за один цикл просмотра.

Если второй недостаток частично исправлен вариантом с мягкой кластеризацией, то первый присутствует даже в модификации метода для неизвестного априори числа кластеров. В этом случае роль ограничивающих параметров играют пороговые значения, используемые для начального «грубого» разбиения и последующего уточнения решения.

Таким образом, при решении практических задач возникает острая необходимость в разработке метода (методов), который был бы более простым и менее субъективным (зависящим от параметров, значения которых редко можно предполагать заранее), чем наиболее используемые методы. В этом новом методе должна производиться оптимизация сразу в процессе работы, по возможности учитываться сразу несколько критериев, и окончание работы метода должно достигаться за один цикл просмотра исходной выборки объектов.

Областью исследования являются методы и алгоритмы обработки информации, критерии оценки качества решения задач, а также их программная реализация (паспорт специальности 05.13.01 - п.п. 2.3, 2.4, 2.

Научная новизна работы заключается в следующем.

1. Создана модель унифицированного формального описания наиболее известных методов кластеризации для проведения, их сравнительного анализа. С целью определения областей эффективного использования различных методов определена их вычислительная сложность. Полученные результаты анализа позволили сделать вывод, что эффективность традиционных иерархических методов^ решения задачи таксономии резкое снижается при увеличении объёма исходных данных, а итеративные методы, решающие задачу кластеризации для выборок большого объёма, не в состоянии обеспечить качество решения, соответствующее одновременно нескольким* различным! критериям, характеризующим пространственную кластерную структуру.

2. Впервые предложен метод (3-кластеризации(для решения задачи построения) оптимального разбиения с учетом нескольких критериев качества. Исследование свойств кластерных решений, получаемых с помощью метода Q-кластеризации, проведенное на сгенерированных тестовых примерах показало, что примерно в 70% случаев найденные решения соответствуют истинной структуре кластеров объектов в пространстве признаков. В частности, метод адекватно определяет истинное число кластеров.

3. Впервые предложен метод «карманной» кластеризации для решения задачи* таксономии на выборках большого объёма и построения разбиения с возможностью выбора оптимального числа кластеров. Оценка предложенного метода на предмет вычислительной сложности показала, что метод «карманной» кластеризации решает задачу таксономии на выборках

12). большого объёма за субквадратичное время в отличие от иерархических методов, характеризующихся сложностью o(/v3)

Использование в методе двухэтапной процедуры позволяет получать стабильные кластерные решения независимо от условий проведения первого этапа.

4. Разработано математическое и алгоритмическое обеспечение для реализации предложенных методов, что позволило исследовать их свойства и границы применимости, а также провести анализ точности на искусственных тестовых и практических примерах. Результаты проведённого исследования показали, что предложенные методы могут успешно применяться для решения практических задач, связанных с исследованием особенностей пространственного распределения объектов, заданного массивами большой размерности, в условиях отсутствия априорной информации.

Практическая значимость. На основе предлагаемых методов кластеризации осуществлено:

• разработка программной реализации метода «карманной» кластеризации;

• решение задачи сегментации потребителей банковских услуг на данных исследования, проведённого в 2003 году Международным Агентством Социальных и Маркетинговых Исследований (МАСМИ -Москва);

• разработка программного приложения на основе метода Q-кластеризации;

• решена задача многофакторного анализа и выделения сегмента учителей-новаторов по использованию информационных и коммуникационных технологий (ИКТ) в профессиональной деятельности среди 8500 участников из семи федеральных округов, прошедших в 2006 г повышения квалификации в рамках совершенствования системы повышения квалификации и профессиональной переподготовки педагогических, инженерно-технических кадров в области информационных и коммуникационных технологий (ИКТ) и смежных областей.

Эксплуатация, указанных программных приложений подтверждена соответствующими актами о внедрении.

Достоверность , математических методов - кластеризации, алгоритмов и программных средств подтверждается, соответствующими, актами; о внедрении, почетным дипломом выставки-конференции

Телекоммуникации и новые информационные технологии в образовании», публикациями научных и практических, результатов в ведущих журналах, в; том числе рекомендуемых ВАК для публикации в них результатов; диссертационных исследований.

На защиту выносятся следующие положения.

1. Новый метод Q-кластеризации для решения задачи: построения оптимального^ разбиения? с учетом: нескольких критериев качества, обеспечивающий^ соответствие кластерных решений: истинной* структуре: распределения объектов в пространстве признаков:

2. Новый; метод «карманной» кластеризации для: решения задачи? таксономии на выборках большого объёма; в котором успешно: комбинируются; характеристики точности иерархических схем, и.* простота реализации итерационных процедур кластеризации: З. Математическое,.алгоритмическое и программное.обеспечение.нового . метода: Q-кластеризации, примененное в ряде образовательных проектов в целях совершенствования образовательного процесса.

4. Математическое, алгоритмическое: и программное обеспечение нового метода- «карманной» кластеризации, примененное для аналитического исследования социально-демографического и; психологического статуса, потребителей банковских услуг с целью, более эффективной работы» банков на финансовом рынке.

5. Содержательные результаты кластеризации данных, полученные в ходе использования программного обеспечения метода Q-кластеризации при реализации программы «Совершенствование системы повышения

Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК

Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Киреев, Василий Сергеевич

Выводы

По результатам, полученным в ходе исследования традиционных методов кластерного анализа, можно сделать следующие выводы.

1. Для проведения сравнительного анализа созданы формальные описания наиболее используемых методов кластеризации по унифицированному образцу; с целью выявления областей эффективного использования определена вычислительная сложность этих методов.

2. Полученные результаты анализа свидетельствуют о том, что результативность традиционных иерархических методов решения задачи таксономии резко снижается при увеличении объёма исходных данных.

3. Итеративные методы, решающие задачу кластеризации для выборок большого объёма, не в состоянии обеспечить качество решения, соответствующее одновременно нескольким различным критериям, характеризующим пространственную кластерную структуру.

4. Приведённые выше результаты определяют актуальность и необходимость разработки новых методов, позволяющих решить задачу многокритериальной оптимизации качества разбиения для выборок большого объёма и решить задачу построения таксономии для выборок большого объёма.

Глава 2. Новые математические методы решения задачи кластеризации 2.1. Решение задачи таксономии

2.1.1. Постановка задачи

Поставим задачу кластеризации следующим образом:

1. имеется выборка объектов объёма N, характеризуемых

Мпризнаками (M«N):o1 =(oll,of,.,ofJ, где i-\,N, признаки измеряются в числовой шкале: о/ е R , где j = \,M (либо в порядковой шкале);

2. под разбиением с подразумевается множество из к кластеров ср, где р = \,к , т.е. С = {с,, с,,., ск}, S — множество возможных разбиений;

3. под кластером с подразумевается множество из Np объектов:

Y,Np = N> p(°x>0},)<p(0>0J, где о=ох,оу, а ох,оу еср, при о:еср; Р=1

4. под р[ог,оу) подразумевается расстояние (мера близости) между объектами ох и оу.

Задачу построения таксономического дерева сформулируем так: в указанных обозначениях по данным исходной выборки (л/ ~ i о3) построить систему вложенных разбиений: Cl,C2,.,CNl, где Су =[суЧ и {с* uc*}J/{c*,c*}, при p{c*p,c*q)~ mmp[cp,cq\^cp,cq еСн, Сх = {о15.,о^}.

2.1.2. Теоретические основы метода «карманной» кластеризации

Произвольное число кластеров К легко получить из иерархической агломеративной схемы, которая не применима для выборки большой размерности, поэтому первым шагом решения должно быть сокращение размерности задачи. Сократить число наблюдений N за приемлемое время можно с помощью итерационных методов, например метода k-средних. Но так как этот метод сильно зависит от начального решения и числа кластеров К, то возможно получение нестабильного решения в результате.

Чтобы снизить влияние этих параметров на результат, предлагается производить кластеризацию не на исходной выборке данных, а на её L выборках меньшего объёма — «карманах», способ подобный бутстрэпингу [12]. Выборки должны содержать равное число наблюдений [n/l], отобранных без возвращения из исходных данных. Таким образом, на выходе первого этапа решения - этапа сокращения размерности задачи по числу наблюдений — имеются центры кластеров ju(Cj ) и их объём Nj, где j = \,Lx К.

Вторым этапом решения задачи является иерархическая агломеративная процедура, причём для учёта объёма кластеров имеет смысл использовать метод Варда в качестве метода измерения расстояния между кластерами:

Метод Варда лучше подходит в данном случае, так как позволяет получить монотонную кластеризацию. Благодаря свойству монотонности можно построить дендрограмму — плоское отображение всей кластерной структуры, дендрограмма не будет иметь при этом самопересечений.

После выбора подходящего решения (например, по графику агломерации) исходные объекты должны быть отнесены к построенным центрам К кластеров. Отнесение осуществляется жёстко - каждое наблюдение О; относится к ближайшему центру с7.

Алгоритм 2.1. «Карманная» кластеризация

1. Провести кластеризацию в L выборках методом k-средних. Получить объёмы и центры кластеров.

1.1.Цикл по всем выборкам Ои\ l-\,L

1.2.Инициализация начального множества эталонов е е Е{1)

1.3. Цикл по всем объектам Vo е 0(!)

1.3.1. Отнесение объекта о к ближайшему эталону:

2.1) где //(с,) — центр тяжести кластера с,

1.3.1.1. em = emyj{o] d(о,em) = mind{o,e) 1.3.2. Если em отличается от эталона предыдущего шага ет, то :

VemJ = kw КI+ )/(к I + 0| J = й?

1.3.2.1. в = \ет\ +1 /W I I W I

132 2 ^ = ' ~ ' ~ ^J = l,M е \ = \е —1

I m I I т\

1.3.3. Пока центры эталонов не перестанут изменяться.

2. Кластеризовать полученные центры в иерархической агломеративной процедуре по методу Варда. Выбрать кластерное решение по скачку расстояния агломерации.

2.1. Инициализация начального множества кластеров: ZZC^Qc^uO^

1=\,L

2.3.Цикл по / = 2,.,|С,=1|

2.4. Поиск пары ближайших кластеров: 2.4.1. (cp.,cq.)\d(cpt,cq,) = min d{cp,cq)

2.5. добавление объединённого кластера в текущее множество кластеров:

2.6. С, = С,, и {ср. vcq>}\ {ср.,cqt}

2.7. Цикл по Vc е С,

2.7.1. Расчёт расстояния по формуле Ланса-Уильямса R(c,cpt ut?>)

3. Разбить исходные наблюдения по полученным К центрам, отнеся каждое наблюдение к ближайшему центру.

Так как оценка вычислительной эффективности метода является аддитивной величиной, то будем рассматривать её отдельно для каждого из двух этапов работы алгоритма, это позволит исследовать эффективность каждого этапа относительно только своих параметров, и затем сложить для вычисления общей, итоговой оценки.

Если исходить из полученной ранее оценки то окажется, что вычислительная сложность первого этапа зависит от трёх заранее заданных величин - числа выборок L, числа кластеров - к и объёма выборки N. 1

Неизвестным фактором является суммарное число итераций ^ I,, которые

-1 требуются для стабилизации множества эталонов. Чтобы определить, зависит ли это число от указанных выше параметров, были проведены расчёты по первому этапу для модельных выборок различного объёма — от 1 ООО до 2000 наблюдений, с шагом в 50 наблюдений, для фиксированных значений L и к.

В силу того, что вычислительная сложность второго этапа метода «карманной» кластеризации определяется величиной Р = £-£ + |о(/+|)|, причём в нашем случае |o(/'+1)| = res (■%) = (), то были выбраны такие Р, чтобы Р3 было сравнимо с TV по порядку.

Для подтверждения гипотезы о наличии связи между изменением

V 1 , • • объёма выборки и числа итераций был использован дисперсионный анализ. В качестве уровней фактора были выбраны объёмы выборки (и т.д.), в качестве отклика — число итераций. Был использован специально разработанный генератор выборок, содержащих сферические кластеры для получения 200 случайных выборок с последовательно увеличивающимся объёмом (от 90 до 1800 наблюдений, по 10 выборок на каждый объём). По этим выборкам был проведён первый этап «карманной» кластеризации, и рассчитаны суммарные количества итераций и оценено их изменение от фактора - объёма выборок.

Заключение

В заключение можно отметить следующие основные результаты, полученные в ходе работы по данному диссертационному исследованию.

1. Проведено детальное исследование проблемной области кластеризации данных. Для проведения сравнительного анализа традиционных методов решения задач кластеризации созданы формальные алгоритмические описания наиболее используемых методов кластеризации по унифицированному образцу; с целью выявления областей эффективного использования определена вычислительная сложность этих методов.

2. Впервые предложен двухэтапный метод «карманной» кластеризации для решения задачи таксономии на выборках большого объёма и построения разбиения с возможностью выбора оптимального числа кластеров. Оценка вычислительной сложности показала, что метод «карманной» кластеризации решает задачу таксономии на выборках большого объёма за субквадратичное время. Использование в методе двухэтапной схемы позволяет получать стабильные кластерные решения независимо от условий проведения первого этапа.

3. Реализованный с помощью средств VBA 6.0 для Microsoft Excel метод «карманной» кластеризации использовался для решения задачи сегментации потребителей банковских услуг на данных исследования, проведённого в 2003 году Международным Агентством Социальных и Маркетинговых Исследований (МАСМИ). Разработанное программное обеспечение было внедрено в маркетинговый процесс торговой организации ООО «Мегагранд XXI Век», что подтверждается соответствующим актом о внедрении.

4. Впервые предложен метод Q-кластеризации для решения задачи построения оптимального разбиения с учетом нескольких критериев качества разбиения. Исследование свойств кластерных решений, получаемых с помощью метода Q-кластеризации, проведенное на сгенерированных тестовых примерах показало, что, в среднем в 70% случаев найденные решения соответствуют истинной структуре данных. В частности, адекватно определяется истинное число кластеров.

5. Реализованный с помощью средств VBA 6.0 для Microsoft Excel метод Q -кластеризации использовался для решения задачи многофакторного анализа и выделения сегмента учителей-новаторов в рамках выполнения Национального проекта «Образование» в 2006 г. по программе «Совершенствование системы повышения квалификации и профессиональной переподготовки педагогических, инженерно-технических кадров общеобразовательных школ в области информационных и коммуникационных технологий (ИКТ) и смежных областей». В результате полученных кластерных решений был сформирован пул учителей-инноваторов для дальнейшего использования их методического опыта в области ИКТ, что подтверждено соответствующими актами о внедрении.

6. Предложенный метод Q - кластеризации вошёл как составная часть в проект разработки информационно-образовательного портала МИФИ для самостоятельной работы студентов, выполняемый по Инновационной программе инженерно-физического образования для нового этапа развития ядерной науки и промышленности в рамках реализации Приоритетного национального проекта «Образование» (2007), что подтверждается актом о внедрении.

Список литературы диссертационного исследования кандидат технических наук Киреев, Василий Сергеевич, 2008 год

1. Дюран Б., Одел П. Кластерный анализ — М.: Финансы и статистика, 1977.

2. Мандель И.Д. Кластерный анализ. — М.: Финансы и статистика, 1988.

3. Олденфендер М.С., Блешфилд Р.К. Кластерный анализ /Факторный, дискриминантный и кластерный анализ/ Дж. О. Ким, У. Мюллер У.Р. Клерка и др. М.: Финансы и статистика, 1989.

4. Айвазян С.А., В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин Прикладная статистика: Классификация и снижение размерности: Справ. Изд. М: Финансы и статистика, 1989.

5. Айвазян С.А., Мхитарян B.C. Прикладная статистика. Основы эконометрики. В 2 т.Т. 1. Теория вероятностей и прикладная статистика. — М.: ЮНИТИ-ДАНА, 2001.

6. Дубров A.M., Мхитарян B.C., Трошин Л.И. Многомерные статистические методы. — М.: Финансы и статистика, 2001.

7. Дубровский С.А. Прикладной многомерный статистический анализ. — М.: Финансы и статистика, 1982.

8. Мешалкин Л.Д. Локальные методы классификации // Статистические методы классификации. М.: Изд-во МГУ, 1969. - вып. 1. - С. 58-78

9. Браверманн Э.М., Мучник И.Б. Структурные- методы обработки эмпирических данных. М.: Наука, 1983.

10. Ю.Вапник В.Н. Восстановление зависимостей по эмпирическим данным. -М.: Наука, 1979.

11. П.Крянев А.В. Лукин Г.В. Математические методы обработки неопределенных данных. -М.:ФИЗМАТЛИТ, 2003. 216 с.

12. Типология и классификация в социологических исследованиях/Под ред. Андреенкова В.Г. и Ю.Н. Толстовой. — М.: Наука, 1982.

13. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data mining, Visual Mining, Text Mining, OLAP. -2-е изд., перераб. и доп. СПб.: БХВ-Петербург, 2007.

14. Гайдышев И. Анализ и обработка данных: специальный справочник — СПб: Питер, 2001.

15. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. -М.: Мир, 1979.

16. Уиллиамс У. Т., Ланс Д. Н. Методы иерархической классификации // Статистические методы для ЭВМ / Под ред. М. Б. Малютов. М.: Наука, 1986.

17. Binder, D. А. (1978), "Bayesian Cluster Analysis," Biometrika, 65, 31-38.

18. Fuzzy Cluster Analysis with Cluster Repulsion, H. Timm, C. Borgelt, C. Doring, R.Kruse, Dept. Of Knowledge Processing and Language Engineering, Otto-von-Guericke-University of Magdeburg, 2001

19. Clustering Methods. Applications of Multivariate Statistical Analysis/ Jiangsheng Yu/ Institute of Computational Linguistics, Peking University, Beijing, 100871

20. Celeux, G., Chaveau, D., and Diebolt, J. (1996), "Stochastic Versions of the EM Algorithm: An Experimental Study in the Mixture Case," Journal of Statistical Computation and Simulation, 55, 287-314.

21. Celeux, G., and Govaert, G. (1992), "A Classification EM Algorithm for Clustering and Two Stochastic Versions," Computational Statistics and Data Analysis, 14, 315-332.

22. Macqueen, J. (1967). Some Methods for Classification and Analysis of Multivariate Observations. In Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability (p. 281-297). Berkeley: University of California Press, Vol. 1.

23. Hartigan, J. A., and Wong, M. A. (1978), "Algorithm AS 136: A k-Means Clustering Algorithm," Applied Statistics, 28, 100-108.

24. Назаров A.B., Лоскутов А.И. Нейросетевые алгоритмы для прогнозирования и оптимизации систем. СПб.: Наука и Техника, 2003.31.0совский С. Нейронные сети для обработки информации. — М.: Финансы и статистика, 2004.

25. Галушкин А.И. Теория Нейронных сетей. М.: ИПРЖР, 2000.

26. Т. Kohonen Self-organized formation of topologically correct feature maps Biological Cybernetics, Vol. 43, pp.59-69, 1982

27. T. Kohonen Self-Organizing Maps — Springer, 1995

28. Кохонен Т. Ассоциативная память — М.: Мир, 1980

29. Кохонен Т. Ассоциативные запоминающие устройства — М.: Мир, 1982

30. Фор А. Восприятие и распознавание образов — М.: Машиностроение, 1989.- 272 с

31. Горбань А.Н., Россиев Д.А Нейронные сети на персональном компьютере Новосибирск: Наука (Сиб. отделение), 1996. 276 с

32. Hopfield JJ Neural networks and physical systems with emergent collective computational abilities Proc. Nat. Acad. Sci. USA. 1982. Vol. 79. P.2554-2558

33. Hopfield J.J Neural Networks and Physical systems with emergent collective computational abilities Proc. Nat. Sci. USA. 1982. V.79. P. 2554-2558

34. Уоссермен Ф. Нейрокомпьютерная техника —M.: Мир, 1992

35. А.А.Веденов Итоги науки и техники. Сер. "Физ. и Матем. модели нейронных сетей" -М.: Изд-во ВИНИТИ, 1990-92 Т. 1-5

36. Фролов А.А., Муравьев И.П Нейронные модели ассоциативной памяти М.: Наука, 1987.- 160 с

37. Т.М. Martinetz, S.G. Berkovich, K.J. Schulten Neural-gas network for vector quantization and its application to time-series prediction IEEE Transactions on Neural Networks, Vol. 4, No. 4, p.558-569, 19931

38. Черноруцкий ИГ. Методы принятия решений. Спб.: БХВ-Петербург, 2005.

39. Интрилигатор М. Математические методы оптимизации и экономическая теория — М.: Прогресс, 1975

40. Кузин JI.T. Основы кибернетики. T.l. М.: Энергия, 1973.

41. Салмин И.Д. Математическое программирование. Ч. I. М.: МИФИ, 1978.

42. Салмин И.Д. Математическое программирование. Ч. II. М.: МИФИ, 1979.

43. Киреев B.C. Алгоритм кластеризации данных с минимаксной оптимизацией критериев качества разбиения /Киреев B.C. //Информационные технологии. 2007, № 7. - С.47-49.

44. Киреев B.C. Сегментация потребителей банковских услуг с помощью метода Q-кластеризации /Киреев B.C., Синицын С.В.// Информационная математика. 2007, № 1(6). - С.81-90.

45. Киреев B.C. Информационная поддержка самостоятельной работы студентов: система МИФИСТ /Гусева А.И., Киреев B.C., Тихомирова А.Н., Филиппов С.А., Цыплаков А.С.// Научная сессия МИФИ-2008:сб. научных трудов. М.: МИФИ, 2008. -Том 6 - С.21-22.

46. Киреев B.C. Q-алгоритм сегментирования данных при неизвестном исходном числе сегментов /Киреев B.C.// Научная сессия МИФИ-2007: сб. научных трудов.- М.: МИФИ, 2007-Том 2. -С.93-95.

47. Киреев B.C. Двухэтапный алгоритм кластеризации данных /Киреев B.C., Синицын С.В.// Научная сессия МИФИ-2006: сб. научных трудов. М.: МИФИ, 2006. -Том 2. -С. 14-15.

48. Киреев B.C. Нейросетевая модель потребителя в маркетинговом ценовомхисследовании ВРТО/Киреев B.C., Синицын С.В.// Научная сессия МИФИ-2005: сб. научных трудов М.: МИФИ, 2005. -Том 2. -С.142.

49. Киреев B.C. Маркетинг и маркетинговые исследования/Киреев B.C., Маковеев Н.П. //Электронные учебные материалы.-М., МИФИ, 2007.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.