Асимптотические свойства статистических процедур анализа смесей вероятностных распределений тема диссертации и автореферата по ВАК РФ 01.01.05, кандидат физико-математических наук Горшенин, Андрей Константинович

  • Горшенин, Андрей Константинович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2011, Москва
  • Специальность ВАК РФ01.01.05
  • Количество страниц 175
Горшенин, Андрей Константинович. Асимптотические свойства статистических процедур анализа смесей вероятностных распределений: дис. кандидат физико-математических наук: 01.01.05 - Теория вероятностей и математическая статистика. Москва. 2011. 175 с.

Оглавление диссертации кандидат физико-математических наук Горшенин, Андрей Константинович

Введение

1 Свойства медианных модификаций алгоритмов ЕМ-типа

1.1 Свойства медианных модификаций EM-алгоритма.

1.1.1 Задача разделения смесей вероятностных распределений

1.1.2 ЕМ-алгоритм для разделения конечных смесей нормальных законов.

1.1.3 Относительная эффективность выборочного среднего и выборочной медианы при оценивании параметров положения компонент конечных смесей нормальных законов.

1.1.4 Медианные модификации EM-алгоритма.

1.1.5 Обоснование целесообразности применения медианной модификации ЕМ-алгоритма для решения задачи разделения конечных смесей нормальных законов.

1.2 Свойства стохастических медианных модификаций

EM-алгоритма

1.2.1 SEM-алгоритм

1.2.2 Медианная модификация SEM-алгоритма.

1.2.3 Свойства SEM-алгоритмов, получаемые на основании интерпретации последовательности оценок как марковской цепи

2 Асимптотически наиболее мощные критерии проверки гипотез о числе компонент смеси вероятностных распределений

2.1 Устойчивость масштабных смесей нормальных законов относительно смешивающего распределения

2.1.1 Постановка задачи.

2.1.2 Модель добавления компоненты.

2.1.3 Модель расщепления компоненты

2.1.4 Выводы.

2.2 Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений в модели добавления компоненты.

2.2.1 Постановка задачи.

2.2.2 Асимптотически наиболее мощный критерий проверки гипотез о числе компонент смеси.

2.2.3 Асимптотическое поведение разности мощностей

2.2.4 Условия конечности моментных характеристик Ф

2.2.5 Примеры конкретных смесей вероятностных распределений

2.3 Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений в модели расщепления компоненты.

2.3.1 Постановка задачи.

2.3.2 Асимптотически наиболее мощный критерий проверки гипотез о числе компонент смеси.

2.3.3 Асимптотическое поведение разности мощностей

2.3.4 Условия конечности моментных характеристик

2.3.5 Примеры конкретных смесей вероятностных распределений

2.4 Тестирование критериев.

3 Практическое применение методов разделения смесей вероятностных распределений

3.1 Декомпозиция волатильности с помощью метода скользящего разделения смесей.

3.2 Применение медианных модификаций алгоритмов ЕМ-типа для декомпозиции волатильности финансовых индексов

3.3 Эволюция вероятностных характеристик низкочастотной турбулентности плазмы.

3.3.1 Описание установки и метода измерения

3.3.2 Структурная ионно-звуковая турбулентность в установке ТАУ-1.

3.3.3 Применение ЕМ- и SEM-алгоритмов для анализа временных выборок флуктуаций потенциала ионно-звуковой структурной турбулентности

3.3.4 Экспериментальные результаты

3.3.5 Выводы.

3.4 Анализ тонкой стохастической структуры хаотических процессов с помощью ядерных оценок.

3.4.1 Исследование тонкой структуры доплеровских спектров флуктуаций плотности в краевой плазме в тороидальных установках.

3.4.2 Метод анализа структуры процесса, основанный на ядерных оценках плотности.

3.4.3 Применение метода к реальным данным.

3.4.4 Выводы.

Рекомендованный список диссертаций по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Асимптотические свойства статистических процедур анализа смесей вероятностных распределений»

Во многих ситуациях удобными математическими моделями стохастических хаотических процессов являются подчиненные винеровские процессы, по сути представляющие собой процессы- броуновского движения со случайным временем (или со случайными параметрами сноса и диффузии). Математическим обоснованием такого подхода являются предельные теоремы для обобщенных дважды стохастических пуассо-новских процессов (обобщенных процессов Кокса). Обобщенные процессы Кокса являются в некотором смысле наилучшими моделями нестационарных хаотических случайных блужданий и демонстрируют высокую адекватность при их использовании для описания динамики биржевых цен или характеристик турбулентной плазмы на временных микромасштабах. С помощью соответствующих предельных теорем такие модели распространяются на временные макромасштабы и трансформируются в упоминавшиеся выше подчиненные винеровские процессы (см., например, книгу [10]). В рамках таких моделей распределения приращений рассматриваемых процессов в общем случае имеют вид сдвиг-масштабных смесей нормальных законов.

Как уже отмечалось, подчиненные винеровские процессы широко применяются для моделирования таких хаотических процессов как поведение биржевых цен, финансовых индексов, характеристик турбулентной плазмы. Столь разные по своей природе процессы объединяют некоторые общие черты, которые и служат обоснованием возможности применения схожих моделей для моделирования как финансовых рынков, так и плазменной турбулентности. Так, для обеих областей характерны непредсказуемость, неоднородность по времени (например, интенсивность торгов может быть различной в течение торгового дня; в плазме наблюдается структурная турбулентность), наличие более-менее устойчивых внутренних структур, оказывающих существенное влияние на функционирование всей системы (например, солитоны в плазме, группировки участников финансовых рынков). При проведении анализа в обеих областях внутренняя структура процесса, чаще всего, исследователю неизвестна.

При изучении тонкой стохастической структуры подобных процессов наибольший интерес представляет скорость изменения процесса (то есть его волатильность). При этом, в отличие от многих стандартных определений термина «волатильность», в данной работе будет использоваться понятие многомерной волатильности (см., например, книгу [10]), которое основано на возможности аппроксимации произвольной сдвиг-масшабной смеси нормальных законов конечной смесью вида 1 где

Ф(ж) = J ф{х) -^=ехр оо

- соответственно функция распределения и плотность стандартного норк мального закона, к ^ 1 - известное натуральное число, р{ ^ 0, — 1> 1 а* € К, <У{ > 0, г — 1,., к. В рамках такой модели распределений приращений хаотических стохастических процессов волатильность трактуется [10] как дисперсия приращения, которая равна к к И = + ~ Ю2, г=1 г=1 где к а = ^рга{. i=l

Здесь первое слагаемое, не зависящее от параметров сдвига компонент, описывает диффузионную компоненту волатильности, тогда как второе слагаемое, не зависящее от параметров диффузии компонент, описывает динамическую компоненту волатильности. Следует отметить, что параметры щ являются средними значениями приращений рассматриваемого процесса за единицу времени, поэтому векторы а = (а^ ., а/.) и р = (^>1,. ,рк) описывают распределение средних скоростей в рассматриваемой системе.

Поясним сказанное. В процессе могут присутствовать некоторые (локальные) тренды, происходить их взаимодействия. Данные факторы формируют динамическую компоненту волатильности. Одновременно в моделируемых системах (и в плазме, и на финансовых рынках) присутствует большое число факторов, оказывающих существенное влияние на функционирование системы (частицы среды, участники рынка), но поведение каждого из которых в отдельности не поддается предсказанию. Суммарное случайное воздействие данных факторов определяет диффузионную составляющую волатильности. Только с учетом факторов обоих типов можно получить корректный портрет волатильности хаотического процесса.

С целью анализа стохастической структуры рассматриваемой системы, в рамках которой развивается изучаемый процесс, необходимо осуществить декомпозицию волатильности на динамическую и диффузионную составляющую. В рамках указанной выше модели типа конечной смеси распределений вероятности эта задача сводится к задаче статистического разделения конечных смесей, то есть задаче отыскания статистических оценок параметров смеси.

Данная задача является весьма важной в целом ряде отраслей:

1. Финансовые рынки (изучение скрытых тенденций эволюции различных секторов рынка или различных финансовых инструментов, основанное на применении понятия многомерной волатильности.

2. Физика турбулентной плазмы (анализ распределения энергии между процессами или структурами, исследование корреляционной структуры хаотических процессов).

3. Информационные системы (исследование стохастической структуры информационных потоков в вычислительных или телекоммуникационных системах).

Для решения задачи статистического разделения смесей используются различные методы, наиболее популярным из которых является ЕМ-алгоритм. ЕМ-алгоритм представляет собой итеративный метод для нахождения оценок максимального правдоподобия в задаче с неполным набором данных. На каждой итерации проводятся:

Е-шаг (от expectation), на котором вычисляется условное математическое ожидание логарифма функции правдоподобия по имеющимся данным и текущим оценкам параметра.

М-шаг (от maximization), на котором находится следующая оценка параметра максимизацией функции, полученной на Е-шаге.

Термин «неполные данные» подразумевает существование двух выборочных пространств X и У, при этом отображение X —> У не единственно. Наблюдаемые данные - из У, а соответствующие х не наблюдаются непосредственно, а только через у. Именно множество X является полным набором данных.

Данный метод был описан и систематически исследован в работе [39] в 1977 году, хотя сам метод использовался со значительно более раннего времени (например, работа [44] датирована 1958-годом). В дальнейшем исследование свойств ЕМ-алгоритма продолжалось в работах многих исследователей (см., например, работы [30, 41, 72]).

Существует два основных применения ЕМ-алгоритма. Во-первых, в случае, когда действительно есть пропущенные значения в данных в связи с ограничениями их процесса получения. Во-вторых, в ситуации, когда задача оптимизации функции правдоподобия аналитически неразрешима, но функция правдоподобия может быть значительно упрощена предположениями о существовании и значениях дополнительных (неизвестных) параметров. Такая задача часто встречается в задачах разделения смесей вероятностных распределений, распознавания образов, реконструкции изображений. При этом математическую основу данных прикладных задач составляют задачи кластерного анализа, классификация и разделение смесей вероятностных распределений.

Приведем примеры практического применения ЕМ-алгоритма:

1. Интеллектуальный анализ данных (Data Mining), связанный с задачами кластеризации, распознавания образов, выделения закономерностей в данных в информационных потоках.

2. Заполнение пропусков в данных для дальнейшего анализа методами, ориентированными на работу с данными без пропусков (например, при анализе временных рядов).

3. Обработка изображений (восстановление и анализ изображений, компьютерная томография), распознавание естественных языков (например, часто используемый алгоритм Баума-Велча представляет собой модификацию ЕМ-алгоритма).

Несмотря на свою популярность и относительную эффективность, ЕМ-алгоритм не лишен недостатков, оказывающихся весьма существенными в ряде ситуаций. Например, как показывают модельные примеры, в задачах разделения смесей нормальных законов на основе выборок конечного объема EM-алгоритм выдает не наиболее близкие к правильным оценки параметров, а наиболее «правдоподобные» (с точки зрения максимизации соответствующей функции правдободобия), что, естественно, способно привести к ошибочным выводам на основе неправильных оценок. Известны проблемы неустойчивости по отношению к исходным данным (оценки могут радикально измениться при замене всего лишь одного наблюдения в выборке из 200 — 300 наблюдений) и неустойчивости по отношению к выбору начального приближения (от этого может зависеть скорость сходимости, причем весьма существенно) [10]. К тому же алгоритм работает с заранее заданным числом компонент, которое может не соответствовать реальному распределению выборки. Известен ряд практических примеров (см., например, [23]), когда классический ЕМ-алгоритм оказывается неприменимым.

Существуют и другие методы отыскания оценок максимального правдоподобия, например, метод сопряженного градиента, модификации метода Гаусса-Ньютона. Однако в отличие от EM-алгоритма, такие методы, как правило, требуют оценки первой и/или второй производных функции правдоподобия. На практике также возникают сложности с вычислением интегралов на Е-шаге. Например, далеко не всегда возможно получить данный интеграл в терминах элементарных функций. Для преодоления данной проблемы был предложен МСЕМ-алгоритм (Monte Carlo ЕМ-алгоритм) [71], основанный на принципе имитационного моделирования. Однако за упрощение вычислений на Е-шаге приходится платить дополнительной погрешностью (из-за приближения интеграла суммой).

Для борьбы с недостатками классического EM-алгоритма применяют различные модификации классического алгоритма. При этом изменения не затрагивают принципиальную суть EM-алгоритма, изменяя лишь подходы к вычислению параметров на Е- и М-шагах (как, например, уже упомянутый МСЕМ-алгоритм, описываемый далее SEM-алгоритм).

В силу неустойчивости EM-алгоритма по отношению к исходным данным возникает необходимость использования робастных оценок на шагах EM-алгоритма, то есть оценок, обладающих нечувствительностью к малым отклонениям от предположений. В качестве робастных оценок П. Хьюбером [22] предложено использовать так называемые М-оценки. М-оценка - всякая оценка Тп, определяемая как решение экстремальной задачи на минимум вида п

2p(xüTn) -> min, ¿=1 где р(-) - произвольная функция. Заметим, что если в качестве р(х\ в) взять функцию — log /(ж;0), где f{x\6) - плотность распределения наблюдений, в - неизвестный параметр, то можно получить оценки максимального правдоподобия. Данные оценки допускают обобщение на многопараметрический случай, что позволяет одновременно выписывать оценки данного типа для сдвига и масштаба.

В книге [22] развиваются результаты Ф.Р. Хэмпела [43], на основании которых показано, что медиана является робастной М-оценкой параметра сдвига. Более того, известно, что медиана является единственной М-оценкой, инвариантной относительно масштаба. Поэтому в данной работе значительное внимание уделяется построению и применению медианных модификаций алгоритмов ЕМ-типа.

Одним из важнейших недостатков классического EM-алгоритма является то, что он в ряде ситуаций выбирает первый попавшийся локальный максимум (см., например, [9]). То есть, являясь методом локальной оптимизации, он приводит не к глобальному максимуму функции правдоподобия, а к тому локальному максимуму, который является ближайшим к начальному приближению.

Самый простой способ противодействия этому свойству заключается в том, чтобы, не ограничиваясь единственным начальным приближением и, соответственно, единственной траекторией ЕМ-алгоритма, реализовать несколько траекторий, задавая (например, случайно) несколько различных начальных приближений, а затем выбрать тот из результатов, для которого правдоподобие является наибольшим среди всех реализованных траекторий EM-алгоритма. Однако при таком подходе остается неясным ответ на вопрос о том, каким механизмом разумнее всего пользоваться при переходе от одного начального приближения к другому. В частности, когда начальное приближение задается случайно, без дополнительной информации нельзя исчерпывающим образом определить распределение вероятностей, в соответствии с которым следует генерировать очередное начальное приближение.

Другой, оказавшийся весьма эффективным, способ заключается как бы в случайном «встряхивании» наблюдений (выборки) на каждой итерации. Этот способ лежит в основе семейства SEM-алгоритмов от Stochastic EM-algorithm, стохастический (или случайный) ЕМ-алго-ритм [11, 31]). Отличие заключается в добавлении еще одного (помимо Е- и М-шагов) так называемого S-шага, который и реализует указанное встряхивание «выборки».

Основная идея данной модификации заключается в некотором разделении исходных данных по кластерам и максимизации соответствующих функций с учетом принадлежности данных тому или иному кластеру. Одним из важных достоинств практического применения SEM-алгоритма является то, что он, чаще всего, находит именно глобальный максимум функции правдоподобия.

Далее будет подробно описана теоретическая модель SEM-алгоритма для задачи декомпозиции конечных смесей вероятностных распределений, а также доказаны важные свойства сходимости данного алгоритма и его новой версии - медианного SEM-алгоритма для смесей нормальных распределений, не исследовавшиеся или мало исследовавшиеся в литературе. На основе интерпретации последовательности SEM-оцеиок как марковской цепи будут получены важные результаты, проливающие свет на функционирование SEM-алгоритмов, из которых можно сделать выводы об особенностях практического использования SEM-алго-ритмов в задаче декомпозиции смесей. При этом доказательство свойств SEM-алгоритмов проводится без дополнительных предположений о параметрах метода и для произвольного конечного числа компонент в смеси.

Некоторые свойства классического SEM-алгоритма изучались в работах [32, 33, 40, 49, 57]. Так, в работе [32] для классического SEM-алгоритма рассмотрен случай смеси только двух законов fi(x) и /г (я). Пусть pC-^lf^M,

2=1 где zf^ - независимые случайные величины с распределением Бернулли с параметром t{m) - t (x- v™) - Pim)Mxi)

Величина p(m+1) в принятых авторами работы [32] обозначениях соответствует оценке параметров на (т + 1)-м итерационном шаге. При этом на моделируемые на S-шаге случайные величины накладывается дополнительное ограничение

4Я)>С(ЛГ,<0, (1)

1=1 справедливое для всех компонент от 1 до А; (даже в случае к ^ 3, см., например, [33]). Здесь, в принятых авторами указанных работ обозначениях N - объем выборки, а с(Ы, й) - пороговая функция. Причем О < фУ, в) < 1, с(N,(1) —> 0 при N —> со. Предлагается в) выбирать из соотношения дг ¿+1 1 с(ЛГ,б0 = ——, - ^ о; ^ 1. 4 ' 1 N° 2

Величину N0^, в) можно интерпретировать как минимальное число элементов, которое должно содержаться в непустом кластере (при этом величину (1 нужно считать одним из параметров метода; понятно, что необходимо требовать, как минимум, выполнение условия б? ^ 0). Если же соотношение (1) не выполняется, то выбираются из некоторого заранее заданного распределения, а алгоритм возвращается к Е-шагу (то есть, фактически, реализуется принцип перезапуска алгоритма с начальными значениями из некоторого заранее выбранного семейства).

Фактически данные ограничения предназначены для того, чтобы исключить случай пустых кластеров (речь об этом пойдет ниже, в главе 1), а также учесть возможность считать пустым не только кластер, не содержащий элементов выборки, но и содержащий некоторое их число. Очевидным недостатком данного подхода является тот факт, что приходится принудительно задавать число компонент в подгоняемой смеси, которое на практике обычно неизвестно. Способам преодоления указанного недостатка посвящена глава 2.

В указанных предположениях в работе [32] для классического БЕМ-алгоритма в случае смеси двух законов приводится теорема о свойствах БЕМ-оценок, однако в той же работе отмечено, что уже для трех-компонентной смеси подобная техника доказательства не подходит (а значит, нельзя перенести результаты с двухкомпопентной смеси на смесь с произвольным конечным числом компонент). В главе 1 будет доказана теорема о свойствах оценок БЕМ-алгоритма (в том числе и для медианной модификации для смесей нормальных законов) для случая произвольного числа компонент в смеси и без дополнительных ограничений на параметры метода.

Алгоритмы ЕМ-типа могут применяться как важная составная часть некоторой более сложной процедуры, называемой методом скользящего разделения смесей (СРС-метод, см. [10]). Данный метод позволяет учесть изменения, происходящие в функционировании процесса в течении времени. Такой подход позволяет решить задачу декомпозиции во-латильности во времени, отследить появление и исчезновение факторов, формирующих структуру процесса в каждый момент времени.

Важным параметром в модели типа смесей вероятностных распределений является число компонент. Алгоритмы ЕМ-типа обычно подразумевают явное задание этой величины. При этом включение в модель дополнительных параметров увеличивает ее согласие с данными. Однако в данной ситуации возникают две существенные сложности. Во-первых, увеличение числа параметров приводит к повышению вычислительной сложности алгоритма, причем порой к довольно существенному. Во-вторых, в ряде ситуаций (см , например, книгу [10]) использование максимального числа компонент может не приводить к увеличению согласия. К примеру, для масштабных смесей известен эффект насыщения, когда согласие не увеличивается уже со значений числа компонент, равного 4 — 5. Для сдвиг-масштабных смесей известен эффект перетекания волатильности, когда при небольшом числе компонент (около 2 — 3) большее влияние имеет диффузионная компонента, а при увеличении числа компонент - динамическая. Таким образом, задание слишком большого числа компонент может критически влиять на соответствие модели исходным данным или на интерпретацию получаемых результатов. Поэтому задача исследования подходов к определению точного числа компонент является исключительно важной и во многом определяющей для успешного применения указанных моделей и методов на практике.

Многие существующие подходы к определению числа компонент смеси основываются на понятии расстояния Кульбака-Лейблера [45] и носят название информационных (так как данную величину также называют энтропией по Кульбаку). В качестве примеров можно привести критерий Акаике [25], байесовский информационный критерий [62], критерий Ло [55]. Первые два критерия позволяют учесть увеличение согласия с данными при увеличении числа параметров, однако они подразумевают использование некоторой штрафной функции за включение в модель новых параметров. О критерии Ло более подробно речь пойдет в главе 2, где будет дано его формальное описание. Здесь же отметим, что этот критерий не требует штрафных функций, однако его статистика обладает весьма сложным распределением при выполнении нулевой гипотезы1, а именно взвешенным ^-распределением. Причем определение параметров данного распределения представляет собой достаточно серьезную вычислительную задачу даже на небольших объемах выборки и малом числе компонент в смеси (например, уже при = 3).

Общим недостатком подобных критериев является то, что для корректности их применения требуется выполнение достаточно жестких условий регулярности, которые для реальных ситуаций могут не быть справедливыми. Так, например, для смесей нормальных законов нарушается предположение о конечности функции правдоподобия, поэтому формальное применение данных критериев может приводить к ошибочным результатам.

Чтобы минимизировать возможные ошибки, возникающие из-за необходимости задавать в явном виде точное число компонент алгоритмам ЕМ-типа, в диссертации предложено использовать статистический подход для определения числа компонент по выборке. Исходя из особенностей применения предлагаемых алгоритмов, были выделены две практически значимые модели смесей вероятностных распределений, в которых необходимо правильно оценивать число компонент (названные моделью добавления компоненты и моделью расщепления компоненты). При этом ключевым моментом является переход от проверки гипотез о значении натуральнозначного дискретного параметра (равного числу компонент смеси) к проверке гипотез о значении непрерывного параметра (соответствующего весу компоненты, значимость которой проверяется) . При таком переходе естественно возникает задача проверю: простой гипотезы против сложной альтернативы. Для построения критерия и исследования его свойств при решении данной задачи используется асимптотический подход.

В рамках такого подхода, также называемого подходом Питмэна [60], размер и мощность критерия одновременно отделены от нуля, при этом важную роль играют асимптотический дефект [48] и потеря мощности. Особенностью асимптотического подхода является тот факт, что распре

1Предположим, что есть две плотности: /со-компонентаая и /сх-компонентная, кх > кц. Рассматриваются две возможности. Первая: обе плотности одинаково хорошо приближают в смысле расстояния Кульбака-Лейблера исходную выборку. Значит, можно выбрать смесь с меньшим числом компонент. Именно данный вариант (к — ¿о) и будем считать нулевой гипотезой. Вторая: к\-компонентная плотность лучше (точнее). Каждая из альтернатив отдает предпочтение одной из плотностей. Поэтому в качестве альтернативы в нашей исходной задаче можно рассмотреть тот случай, что /^-компонентная смесь лучше приближает смесь деление статистики и мощность критерия зависят от некоторого неизвестного параметра 0 < Ь ^ С, С > 0. При этом величина, определяющая потерю мощности, позволяет сравнить мощность некоторого критерия, не зависящего от неизвестного параметра с мощностью наиболее мощного критерия, зависящего от Таким образом, можно гарантировать, что полученный критерий будет асимптотически наиболее мощным и в тоже время возможно его корректное применение на практике. Величина же дефекта критерия говорит о том, сколько дополнительных наблюдений необходимо для того, чтобы мощность данного критерия совпала с мощностью наиболее мощного критерия. Исследованиям данной проблематики посвящены работы Дж. Л. Ходжеса и Э.Л. Лемана [46, 47], Г.Е. Ноэзера [58], В. Элберса [26, 27]. Важную роль в методологии доказательств результатов в данной области сыграли работы Л. ЛеКама [51, 52, 53, 54], которые позволили получать выражения для потери мощности без построения асимптотических разложений (см. работы Д.М. Чибисова [35, 36, 37, 38]). Наконец, в книге В.Е. Бе-нинга [29] были получены выражения для асимптотического дефекта и потери мощности, использование которых позволило в данной работе в явном виде получить потерю мощности и асимптотический дефект предложенных асимптотически наиболее мощных критериев.

Основные результаты диссертации являются новыми и состоят в следующем:

1. Получено обоснование возможности использования медианных модификаций алгоритмов ЕМ-типа для смесей нормальных законов.

2. Установлены свойства получаемой на итерационных шагах ЭЕМ-алгоритма последовательности оценок параметров идентифицируемых сдвиг-масштабных смесей вероятностных распределений с произвольным конечным числом компонент. Доказано, что последовательность ЭЕМ-оценок параметров смеси представляет собой конечную однородную апериодическую эргодическую марковскую цепь. Данный результат означает корректность использования стохастических алгоритмов ЕМ-типа для получения оценок компонент смеси: доказан факт сходимости распределения итерационной последовательности оценок к стационарному распределению, а также установлена независимость от начального приближения. В частности, эти результаты справедливы для конечных сдвиг-масштабных смесей нормальных законов.

3. Доказаны теоремы устойчивости конечных масштабных смесей нормальных законов к возмущениям параметров в терминах расстояния Леви. Получены двусторонние оценки для расстояний Ле-ви между смесями через расстояние Леви между смешивающими распределениями в рамках моделей добавления и расщепления компоненты. Данный результат может быть использован для обоснования эквивалентности задач проверки гипотез о значении дискретного и непрерывного параметра для статистического определения числа компонент произвольных конечных смесей вероятностных распределений, а также для доказательства корректности использования различных моделей типа конечных смесей нормальных законов, в частности, сеточных методов разделения смеси.

4. Построены асимптотически наиболее мощные критерии проверки гипотез о числе компонент конечной смеси вероятностных распределений и исследованы их асимптотические свойства, в частности, установлена асимптотическая нормальность критериев, выписаны выражения для потери мощности и асимптотического дефекта. Найдены условия их применимости к анализу практически значимых моделей вида конечных сдвиг-масштабных смесей нормальных и гамма-распределений, а также для случая смесей равномерных распределений. Продемонстрирована высокая вычислительная эффективность полученных критериев по сравнению с известными.

5. Рассмотренные в диссертации методы и статистические процедуры эффективно применены к исследованию стохастической структуры конкретных сложных хаотических систем, в частности, плазменной турбулентности.

Результаты диссертации имеют теоретический характер. Однако они направлены на повышение эффективности практического применения статистических процедур анализа смешанных вероятностных моделей. Все описанные методы имеют строгие математические обоснования и в тоже время успешно применены к анализу статистических или экспериментальных данных в различных областях, таких как финансовые рынки или физика турбулентной плазмы.

Результаты работы неоднократно докладывались и обсуждались на научном семинаре кафедры математической статистики факультета ВМК МГУ «Теория риска и смежные вопросы» (2008 — 2011 гг.), Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов» (2008, 2009 гг.), научной конференции «Тихоновские чтения» (2010 г.), международной научной конференции «Интеллектуальная обработка информации» (2010 г.), XII Всероссийском Симпозиуме по прикладной и промышленной математике (2011 г.), международной научной конференции «Моделирование нелинейных процессов и систем» (2011 г.).

Методы, описанные в диссертации, реализованы программно на различных языках программирования, получены свидетельства о государственной регистрации программ для ЭВМ №№ 2009610873, 2010611909, 2010611910, 2010611911, 2011610584, 2011610587, 20116119047, 20116119048. Результаты диссертации были использованы при проведении анализа экспериментальных исследований стохастических плазменных процессов в стеллараторе Л-2М и линейной установке ТАУ-1 в Институте общей физики им. А. М. Прохорова Российской Академии Наук.

Материалы диссертации опубликованы в 14 печатных работах ([74] - [87]), из них 5 статей опубликованы в журналах, включенных в перечень ВАК ([75], [76], [81], [82], [86]).

Кратко остановимся на содержании работы.

Первая глава посвящена исследованиям свойств различных итерационных методов оценивания параметров смесей вероятностных распределений.

В §1.1 дано описание медианной модификации ЕМ-алгоритма, а также обосновывается целесообразность использования робастных оценок медианного типа на Е-этапе ЕМ-алгоритма в задаче разделения конечных смесей нормальных законов. Показано, что медианные оценки естественным образом возникают на Е-этапе ЕМ-алгоритма в задаче разделения конечных смесей двойных экспоненциальных распределений (распределений Лапласа) с теми же самыми значениями параметров сдвига и масштаба компонент, что и у исходной смеси нормальных законов. В свою очередь, двойное экспоненциальное распределение можно представить в виде масштабной смеси нормальных законов при стандартном показательном смешивающем распределении. Таким образом, медианная модификация ЕМ-алгоритма по сути сводится к замене исходной задачи разделения конечных смесей нормальных законов задачей разделения конечных смесей распределений Лапласа с теми же самыми значениями параметров сдвига и масштаба компонент. При указанной замене исходные данные представляются в виде «зашумленной» выборки, причем «зашумление» производится с помощью умножения параметров масштаба компонент на случайную величину со стандартным показательным распределением, а подлежащие оцениванию параметры положения (сдвига) компонент остаются неизменными. Показано, что оценки, получаемые с помощью медианной версии ЕМ-алгоритма в задаче разделения конечных смесей нормальных законов, приближают оцениваемые параметры постольку, поскольку соответствующая последовательность оценок, получаемая ЕМ-алгоритмом, сходится к оценкам'максимального правдоподобия аналогичных параметров в модели вида конечных смесей распределения Лапласа.

В: §1.2 дано общее описание вЕМ-алгоритма, а также приводятся подробные формулы для важного частного случая конечных сдвиг-масштабных смесей нормальных, распределений (в частности, рассматривается и медианная версия ЭЕМ-алгоритма для смесей нормальных распределений). Описаны свойства последовательности БЕМ-оценок, которые строятся алгоритмом при решении задачи разделения конечных смесей вероятностных распределений с произвольным числом компонент. Основной результат формулируется в виде следующей теоремы.

ТЕОРЕМА 1.1. Последовательность оценок получаемая

БЕМ-алгоритмом в задаче разделения идентифицируемых смесей с произвольным конечным числом компонент, представляет собой конечную однородную апериодическую эргодическую марковскую цепь.

Данная теорема играет ключевую роль в обосновании корректности использования стохастических ЕМ-алгоритмов для оценивания параметров смесей. Доказательство заключается в последовательной проверке свойств марковской цепи, которой является последовательность ЭЕМ-оценок.

Как уже было отмечено, в работах, посвященных исследованию свойств БЕМ-алгоритма, предполагается выполнение ряда дополнительных условий. Так, в первых работах, посвященных данной тематике, устанавливались свойства лишь для двухкомпонентной смеси (при этом отмечалась невозможность обобщения приведенных доказательств на произвольное число компонент). Затем была доказана сходимость БЕМ-алгоритма для произвольного числа компонент, установлены асимптотические свойства последовательности ЗЕМ-оценок (асимптотическая нормальность) при выполнении достаточно сложных для проверки на практике условий. Более того, некоторые условия для реальных данных вообще могут не выполняться (например, предположение строгой положительности весов компонент смеси может нарушаться в силу того, что этапы ЯЕМ-алгоритма непосредственно не запрещают весам обращаться в нуль). Теорема 1.1 устанавливает свойства оценок ЭЕМ-алгоритма для произвольного числа компонент без введения дополнительных предположений о параметрах метода.

Вторая глава посвящена построению наиболее мощных критериев проверки гипотез о числе компонент смеси. Для формализации задачи предложены две модели: добавления компоненты и расщепления компоненты. Рассматриваются сдвиг-масштабные смеси произвольных абсолютно непрерывных распределений.

С целью формирования гипотез в задаче статистической проверки гипотез о числе компонент смеси и количественной оценки того, насколько может измениться модель при добавлении или изъятии компоненты, в §2.1 рассматривается задача оценки устойчивости конечных масштабных смесей нормальных законов относительно смешивающего распределения в рамках упомянутых выше двух специальных моделей, называемых моделями добавления и расщепления компоненты. Основные результаты данного раздела отражены в теоремах 2.1 — 2.4.

Предположим, что каждое из независимых наблюдений имеет распределение, представимое в виде конечной масштабной смеси нормальных законов вида к к

Х^Рг = 1, Рг ^ 0, (Тг > О, I = IД. (2) г=1 г=1

Очевидно, что функция распределения (х) из соотношения (2) может быть представлена в виде в(х) =ЕФ(Е/ж), где и - дискретная случайная величина, принимающая значения сг^ с вероятностями р{, то есть

Ц . ■ ■■ СГк

Р\ Р2 ■•■ Рк

Обозначим через (2) равномерное расстояние между функциями распределения Р(х) и С(х), а через Ь(Р, С) - соответствующее расстояние Леви. В модели добавления компоненты предполагается, что каждое из независимых наблюдений имеет распределение, представимое в виде к

Gp(x) = (1 - р) + рф(жсг), (3) 1 где все величины сг^, р^, г = 1 считаем известными, а <т > 0 и

О ^ р ^ 1 считаем параметрами модели. Без ограничения общности для определенности будем считать, что выполнены соотношения

О < а ^ <Ti ^ о"2 ^ . ^ сгк

Для данной модели Gp(x) — ЕФ(Upx), причем дискретная случайная величина Up имеет следующий вид

G <Т\ а2 . СГк

Р' Р pi(l-p) Р2О--Р) ••■ pjb(l-p). Без ограничения общности считаем, что р ^ ст\ — а, тогда

L(U, Up) = p.

При выполнении этих условий справедлива следующая теорема. Теорема 2.1. В рамках модели добавления компоненты (3) справедливы неравенства

L(G, Gp) < L(U, Up) ^ cl\(ik)Ll'2{G, Gp), где коэффициент cj1' (<7fc) зависит только от известной величины о^ и имеет вид

Рассмотрим следующее обобщение модели (3). Пусть имеется еще одна смесь данного типа, отличающаяся от (3) только весом, то есть (при этом 0 ^ q ^ 1) к

Gq{x) = (1 - q) + q$(xa). i=1

Для Gq(x) дискретная случайная величина Uq имеет вид

У a ai а2 • • • о~к

4 ' Q Pi(l-g) Рг(1-д) ••• Pfc(l-g).

Предположим, что — g| ^ crj — сг. Тогда расстояние Леви L(UP, Uq) принимает вид

L{Up,Uq) = \p-q\.

При выполнении указанных условий справедлива следующая теорема.

ТЕОРЕМА 2.2. В рамках модели добавления компоненты вида (3) справедливы неравенства

L(GP, G g) < L(UP1 Uq) < Gy, где коэффициент зависит только от известной величины (Jk и определяется формулой (4).

В модели расщепления компоненты предполагается, что каждое из независимых наблюдений имеет распределение, представимое в виде к-1

Gp(x) = ^РгФ{хсГг) + {рк - р)Ф{хак) + рФ(ггсг), (5) г=1 где все величины tr^, г = считаем известными, а сг > 0 и

О ^ р ^ £>/с считаем параметрами модели. Без ограничения общности для определенности будем считать, что выполнены соотношения

О < <J\ ^ СГ ^ (7k

Отметим, что условие отделенности параметров от нуля в моделях добавления и расщепления компоненты также является достаточно общим и означает, что рассматриваются невырожденные нормальные законы с конечными дисперсиями.

Для данной модели дискретная случайная величина Up имеет вид у <7i СГ2 . . . G Gk

Р ' Pl Р2 • • • Р Рк-Р-Для модели расщепления компоненты расстояние Леви имеет вид

L(U, Up) = min{<jfc — а, р}. 21

Справедлива следующая теорема.

ТЕОРЕМА 2.3. В рамках модели расщепления компоненты (5) справедливы неравенства где коэффициенты j = 1,2, не зависят от величин р и а и имеют вид \ 1/2 сРы = (1 + ^) , (6)

7)

Рассмотрим следующее обобщение модели (5). Пусть имеется еще одна смесь данного типа, отличающаяся от (5) только весом, то есть (при этом 0 ^ q ^ Pk) к-1 я(х) = ^РгФ(ж^) + (рк - д)Ф(хак) + дф(жбт). г=1

Для Gq(x) дискретная случайная величина С/^ имеет вид

C7l СГ2 • • • <Т СТА; ' Pi • • • g Рк ~ Ч-В рассматриваемом случае расстояние Леви имеет вид

L(UP, Uq) = min{<jfc - сг, \р

Справедлива следующая теорема.

Теорема 2.4. 5 рамках модели расщепления компоненты вида (5) справедливы неравенства

C^](<juak)L(Gp:Gq) ^ L(UP, Uq) < cf\cjk)l}l\Gp,Gq), где коэффициенты j = 1, 2, не зависят от величин р и а и определяются формулами (6) и (7).

Доказанные теоремы позволяют переформулировать задачу проверки гипотез о значении дискретного (натуральнозначного) параметра, равного числу компонент смеси, в терминах задачи проверки гипотез о значении непрерывного параметра, принимающего значения из отрезка [0,1]. Переход от дискретного случаю к непрерывному играет важную роль при построении асимптотически оптимальных критериев проверки гипотез о числе компонент.

В §2.2 строится асимптотически наиболее мощный критерий в рамках модели добавления компоненты и исследуются его свойства.

Пусть к - некоторое известное натуральное число. Требуется проверить гипотезу

Н0 : К = к против альтернативы

Hl:K = k + 1, где через К обозначено «истинное» число компонент в смеси. Для удобства асимптотического анализа сведем задачу проверки гипотез о значении дискретного параметра К к задаче проверки гипотез о значении непрерывного параметра: рассматривается простая гипотеза вида о : 6> = 0 против последовательности сложных альтернатив вида : в = -4= > 0, Vn где t - неизвестный параметр.

Модель добавления компоненты в общем случае имеет вид (рг- ^ 0, ipi(x) - плотности, г = 1,., /с, в G [0,1]) к р(х,в) = (1-в) + 0i/>k+i(x) = (1 - 0) • f(x) + в ■ д(х), (8) г=1 к

Eft = г=1

Первый из основных результатов данной главы сформулирован в следующей теореме. Здесь и далее иа обозначает (1 —а)-квантиль стандартного нормального закона.

ТЕОРЕМА 2.5. Пусть для s = 2,3,4 моментные характеристики Ф5 = Ео (g(Xi)/f(Xi))s для функций f(x) и д{х) из соотношения (8) конечны, а соответствующая смесь идентифицируема. Тогда для модели добавления компоненты критерий проверки гипотезы о том, что смесь является к-компонентной, против альтернативы, что смесь является (к + 1)-компонентной, основанный на статистике

Тх = „-1/2 у- (9Ш Л обладает следующими свойствами:

1. При справедливости нулевой гипотезы статистика Т\ имеет нормальное распределение с параметрами 0 и Ф2 — 1 при п —У оо:

Тх | Но) N(0, Ф2 — 1).

2. При справедливости альтернативы статистика имеет нормальное распределение с параметрами £ (Ф2 — 1) и Ф2 — 1 Щи п —> оо:

-► #(*(Ф2-1), Ф2-1).

3. Данный критерий является асимптотически наиболее мощным критерием для заданного уровня а £ (0,1) с предельной мощностью вида = Ф

4. Потеря мощности этого критерия равна

Ш) = Нш п№) ~Ш) = п-> оо 8\/Ф2 — 1

X (ф4 + 2Ф3 - ф2 - ф2 - - 1).

5. Асимптотический дефект этого критерия равен

2 г(г) сI = л/7 ■ (р(Ьу/1 — иа)

Фз - I)2

Здесь (Зп{€) - мощность критерия, основанного на статистике Т\. Отметим, что условия теоремы обеспечивают выполнение условий регулярности, что устанавливает следующая лемма.

JlEMMA 2.1. Пусть фишеровская информация I для плотности р(х, в) для модели добавления компоненты конечна. Тогда выполнены условия регулярности.

Здесь же получены достаточные условия конечности моментных характеристик Ф5, s = 2,3,4, которые для случая конечных смесей нормальных и гамма-распределений имеют вид

2 4 2 Сыл < ~ ■ max а А + 3 i<j<k 3 для смесей нормальных распределений и k+i ^ max 1 \ min (ЗА + 1), ~ min (/% + 1) l^z^fc 2 1<г</с ak+i > - min ocj. 4l<j<k J для смесей гамма-распределений.

Для корректного рассмотрения примеров доказывается теорема об условиях идентифицируемости смесей равномерных распределений.

Теорема 2.6. Пусть А{М) = U [аг,Ьг-], где М - некоторое подъем множество номеров. Обозначим семейство конечных смесей равномерных распределений через к к F(x) = = F* е $ f ' г=1 г=1 J где % = {F(x,a{,bi), х £ М, —оо < щ < bi < сю, г 6 N} - некоторое множество функций распределения равномерных законов (возможно, конечное). Семейство Н идентифицируемо тогда и только тогда, когда

А(М1)\А(М2) Ф 0, для всех возможных различных М\ и М^, Mi С N.

В §2.3 рассматривается асимптотически наиболее мощный критерий для модели расщепления компоненты, которая в общем случае формализуется следующим образом (ipi(x), ф{х) - плотности, рг ^ 0, г = 1,., к, к р(х, в) = Y,pMx) + 0 • WW - Мх)) = /(®) + 0 ■ (9) г=1

Х> г=1

Второй основной результат данной главы сформулирован в следующей теореме.

ТЕОРЕМА 2.7. Пусть выполнены достаточные условия конечности моментпых характеристик Ф3 = Ео (д(Х1)//(Хх))3, в = 2,3,4; для функций /(х) и д(х) из соотношения (9); а соответствующая смесь идентифицируема. Тогда для модели расщепления компоненты критерий проверки гипотезы о том, что смесь является к-компонентной, против альтернативы, что смесь является (к + 1)-компонентной, основанный на статистике обладает следующими свойствами:

1. При справедливости нулевой гипотезы эта статистика имеет нормальное распределение с параметрами 0 и при п оо:

2. При справедливости альтернативы эта статистика имеет нормальное распределение с параметрами и при п оо:

3. Данный критерий является асимптотически наиболее мош,ным критерием для заданного уровня а £ (0,1) с предельной мощностью вида

Т2 | #о)->АГ(0,Ф2). = Ф {1у/¥г-иа).

4. Потеря мощности для этого критерия составляет

5. Асимптотический дефект для этого критерия равен

В данной модели выполнение условий регулярности устанавливается следующей леммой.

ЛЕММА 2.2 Пусть при к = 1 в равенстве (9) конечен интеграл оо

•■'.

-оо ф2{х)'ф1 г(х) d:г, а при k ^ 2 конечен интеграл

7 (k~l V1

J 92{Х) ^J^P.V'iWj dx

Тогда выполнены условия регулярности.

В этом параграфе также получены достаточные условия конечности моментных характеристик s = 2, 3,4, которые для случая конечных смесей нормальных и гамма-распределений имеют вид а2 < -a2, k ^ 1, о2 <2 шах сг2, а2 < 2 max erf, к ^ 2.

3 l^j^k-l J l^j-^k-l J для смесей нормальных распределений и

3 > max |i(3/3i + 1), |(/?i + 1)|, а > |аь к = 1,

3 ^ max + 1), + 1), i ^ (A + 1) j ,

1 . 3 \ a; > max < - mm a^, -m. > ,

2 J,4 ky min l (A + 1), ak > \ min aj: к ^ 2. для смесей гамма-распределений.

В §2.4 рассматривается эффективность применения полученных асимптотически наиболее мощных критериев на практике. Проверяется правильность различения малых весов (вплоть до значений 0.01) на различных объемах выборки. Показано, что число успехов приближается к 100%, при этом число ошибок заведомо не превосходит уровень значимости критерия для каждого из случаев. Отмечены преимущества использования данных критериев по сравнению с критерием Ло.

Третья глава посвящена применению введенных в главах 1 и 2 алгоритмов и техник повышения их эффективности. Отмечены новые для ряда практических областей результаты, которые были получены только с использованием полученных в диссертации методов.

В §3.1 описывается общая схема анализа хаотических процессов с применением метода скользящего разделения смесей (СРС-метод).

В §3.2 рассматривается анализ реальных данных с финансовых рынков с использованием СРС-метода. Найдены и проинтерпретированы портреты волатильностей для различных финансовых индексов. Наибольшее внимание уделяется применению стохастических модификаций алгоритмов ЕМ-типа.

В §3.3 рассматривается анализ хаотических процессов в турбулентной плазме с использованием СРС-метода для различных алгоритмов ЕМ-типа. С помощью подобного анализа впервые была определена структура хаотических процессов, протекающих в турбулентной плазме - было найдено их число (3 — 5), определены параметры.

В §3.4 рассматривается альтернативный СРС-методу подход в анализе хаотических процессов в турбулентной плазме, базирующейся на рассмотрении «производных» величин от выборки (гистограммы, спектры), который можно рассматривать как одну из разновидностей бутстреп-процедур. Данный подход позволяет отследить, прежде всего, особенности функционирования системы на протяжении некоторого периода времени, за которое была построена анализируемая выборка. При этом объем выборки заранее предполагается весьма значительным (порядка нескольких сотен тысяч наблюдений), а истинная структура системы неизвестной. Проведенный анализ позволил получить взаимосвязь между результатами для гистограмм и для спектров, что заранее не предсказывалось теорией. Однако высокая степень согласия полученных результатов с экспериментальными данными позволяет предполагать, что данная связь является неслучайной, а потому представляет значительный интерес для исследований.

Диссертация состоит из введения, трех глав, разбитых на 10 параграфов, и списка литературы, содержащего 87 наименований. Общий объем работы составляет 175 страниц.

Похожие диссертационные работы по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК

Заключение диссертации по теме «Теория вероятностей и математическая статистика», Горшенин, Андрей Константинович

3.4.4 Выводы

При сравнении результатов анализа бутстреп-процедурой для спектра и для гистограммы для одинаковых данных было обнаружено, что число и структура компонент разложения для каждой из ситуаций совпадают. Более того, характеристики компонент и для спектра, и для гистограммы описывают число и поведение процессов, наблюдаемых в плазме во время экспериментов. Эта связь может быть неслучайной и представляет определенные возможности для уточнения моделей функционирования хаотических процессов в турбулентной плазме.

Отметим определенный универсализм изложенного подхода: для описанного метода совершенно не важно, какие именно данные анализировать: различные спектры (Фурье, Велча или другие) или гистограммы - общий подход остается неизменным. Более того, область применения метода не ограничивается только турбулентной плазмой. Он может быть применен в любой области, которая эффективно описывается моделью смеси нормальных законов (например, для биржевых котировок) или любой другой смесью с внесением незначительных изменений в общий принцип функционирования метода (например, для описания информационных потоков используются смеси гамма-распределений; общий алгоритм останется неизменным, лишь в качестве метода для нахождения оценок параметров нужно применить ЕМ-алгоритм для гамма-распределений).

Несмотря на проблемы, характерные для любого алгоритма численной обработки данных (выбор точности приближения, выбор модели), скорость работы метода позволяет провести тестирование для нескольких значений и выбрать оптимальные настройки. Интерпретация полученных результатов с точки зрения конкретных предметных областей представляет существенный практический интерес и является важной задачей для исследований.

Г' 1 Гистограмма ""Смесь (3 компоненты)

-Компонента 1

Компонента 2 Компонента 3

15 -0.1 -0.05

0.05

0.15

Рис. 3.26. Разложение гистограммы на смесь гауссовских компонент. Сплошная жирная линия является взвешенной суммой полученных компонент.

-0.4

X 10

Спектр

Сглаженный спектр Смесь (3 компоненты) Компонента 1 Компонента 2 Компонента 3

Рис. 3.27. Разложение спектра на смесь гауссовских компонент. Сплошная жирная линия является взвешенной суммой полученных компонент.

Список литературы диссертационного исследования кандидат физико-математических наук Горшенин, Андрей Константинович, 2011 год

1. С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин. Прикладная статистика. Основы моделирования и первичная обработка данных. М: Финансы и статистика, 1983.

2. Г. М. Батанов, В. Е. Бенинг, В. Ю. Королев, А. Е. Петров, К. А. Сарксян, H.H. Скворцова, Н. К. Харчев, С. В. Щепетов. Турбулентный перенос в плазме как диффузионный процесс со случайным временем // Письма в ЖЭТФ, 2001. Т. 73(4). С. 143-147.

3. A.A. Боровков. Теория вероятностей. Изд. 4-е М.: Едиториал УРСС, 2003.

4. Ф. П. Васильев. Методы оптимизации. М: Факториал Пресс, 2002.

5. Г.М. Батанов, Л.М. Колик, А.Е. Петров, К. А. Сарксян, Н. Н. Скворцова. Возбуждение нижнегибридной волны на биении двух электронно-циклотронных волн // Физика плазмы, 1996. Т. 22(7). С. 643-647.

6. В. М. Золотарев. Современная теория суммирования независимых случайных величин. М.: Наука, 1986. 417 с.

7. А. Н. Колмогоров, С. В. Фомин. Элементы теории функций и функционального анализа (4-е изд.). М.: Наука, 1976. - 543 с.

8. В. Ю. Королев. Вероятностно-статистический анализ хаотических процессов с помощью смешанных гауссовских моделей. Декомпозиция волатильности финансовых индексов и турбулентной плазмы.- М.: ИПИ РАН, 2007. 363 с.

9. В. Ю. Королев. Вероятностно-статистические методы декомпозиции волатильности хаотических процессов. М.: изд-во Моск. ун-та, 2011. - 512 с.

10. В. Ю. Королев. EM-алгоритм, его модификации и их применение к задаче разделения смесей вероятностных распределений. Теоретический обзор. М: ИПИ РАН, Москва, 2007.

11. В.Ю. Королев. Статистическая декомпозиция волатильности // Статистические методы оценивания и проверки гипотез, 2007. С. 170-206.

12. В. Ю. Королев. Теория вероятностей и математическая статистика.- М: Проспект, 2006.

13. А. Н. Колмогоров. Метод медианы в теории ошибок // Матем. сборник, 1931. Т. 38. № 3/4. С. 47-50.

14. А. Н. Колмогоров. Теория вероятностей и математическая статистика. Сборник статей. М: Наука, 1986.

15. А. С. Кронрод. Узлы и веса квадратурных формул. М.: Наука, 1964.

16. В. И. Петвиашвили, О. А. Похотелов. Уединенные волны в плазме и атмосфере. М.: Энергоатомиздат, 1989. - 200 с.

17. А. Е. Петров, К. А. Сарксян, H.H. Скворцова, Н. К. Харчев. Сравнительные характеристики ионно-звуковых и дрейфовых турбулентных потоков в низкотемпературной плазме // XXXII Звенигородская конференция по физике плазмы и УТС, 2005, Звенигород. С. 106.

18. А. В. Тимофеев. Резонансные явления в колебаниях плазмы. М.: Физматлит, 2000. - 224 с.

19. В. Феллер. Введение в теорию вероятностей и её приложения, т. 2). М.: Либроком, 2010. 766 с!

20. П. Хьюбер. Робастность в статистике. М.: Мир, 1984. 304 с.

21. А. И. Цыплихин, В. Н. Сорокин. Сегментация речи на кардинальные элементы // Информационные процессы, 2006. Т. 6. № 3. С. 177-207.

22. Б. Эфрон. Нетрадиционные методы многомерного статистического анализа. М.: Финансы и статистика, 1988. - 264 с.

23. Н. Akaike. Information theory and an extension of the maximum likelihood principle.// In: B.N. Petrov and F. Csake (eds.) Second International Symposium on Information Theory. Budapest, 1973. P. 267-281.

24. W. Albers. Asymptotic Expansions and the Deficiency Concept in Statistics // Mathematisch Centrum, Amsterdam, 1974.

25. W. Albers Efficiency and deficiency considerations in the symmetry problem // Statist. Neerlandica, 1975. Vol. 29. P. 81-92.

26. G. M. Batanov, L. V. Kolik, D. V. Malakhov, et al. Amplification of Ion-Acoustic Turbulence Upon Electron-Cyclotron Heating of Plasma Bulletin of the Lebedev Physics Institute, 2009. Vol. 36. № 10. P. 305-309.

27. V. E. Bening. Asymptotic Theory Of Testing Statistical Hypothesis: Efficient Statistics, Optimality, Power Loss and Deficiency. Untrecht: VSP, 2000. - 277 p.

28. R. A. Boyles. On the convergence properties of the EM-algorithm // Journal of the Royal Statistical Society, 1983. Series B. Vol. 45. P. 47-50.

29. M. Broniatowski, G. Celeux and J. Diebolt. Reconnaissance de mélanges de densités par un algorithme d'apprentissage probabiliste // Data Analysis and Informatics, 1984. Vol. 3. P. 359-373.

30. G. Celeux, J. Diebolt. Asymptotic properties of a stochastic EM algorithm for estimating mixing proportions // Communications in statistics. Stochastic models 1993. Vol. 9. P. 599-613.

31. G. Celeux, D. Chauveau, J. Diebolt. On Stochastic Versions of the EM Algorithm // Rapports de Recherche-INRIA, 1995. Programme 5. P. 1-25.

32. G. Celeux, J. Diebolt. The EM and the SEM algorithms for mixtures: statistical and numerical aspects // Cahiers du Centre d'Etudes de Recherche Ope'rationnelle, 1990. Vol. 32. P. 135-151.

33. D. M. Chibisov. Asymptotic expansions in problems of testing hypotheses //I. Izv. Akad. Nauk Uzbek SSR, Ser. Fiz.-Mat. Nauk, 1982. Vol. 5. P. 18-26 (in Russian).

34. D. M. Chibisov. Asymptotic expansions in problems of testing hypotheses. II. Izv. Akad. Nauk Uzbek SSR, Ser.Fiz.-Mat. Nauk, 1982. Vol. 5. P. 23-30 (in Russian).

35. D.M. Chibisov. Asymptotic expansions and deficiencies of tests // In: Proc. Intern. Congr. Math.,Warszawa, 1983. Vol. 2. P. 1063-1079.

36. D. M. Chibisov. Calculation of the deficiency of asymptotically efficient tests // Theory Probab. Appl., 1985. Vol. 30. P. 289-310.

37. A. Dempster, N. Laird and D. Rubin. Maximum likelihood estimation from incompleted data // Journal of the Royal Statistical Society, 1977. Series B. Vol. 39(1). P. 1-38.

38. J. Diebolt, E. H. Ip. Stochastic EM: method and application // W. R. Gilks, S. Richardson, D.J. Spiegelhalter (Eds.) Markov Chain Monte Carlo in Practice. London: Chapman and Hall, 1996.

39. B. S. Event and D. J. Hand. Finite Mixture Distributions. London: Chapman and Hall, 1981.

40. J. Hajek Asymptotically most powerful rank- order tests // Ann. Math. Statist., 1962. Vol. 33. P. 1124-1147.

41. F. R Hampel. A general qualitative definition of robustness // Ann. Math. Statist., 1971. Vol. 42. № 6. P. 1887-1896.

42. H. Hartley. Maximum likelihood estimation from incomplete data // Biometrics, 1958. Vol. 14. P. 174-194.

43. S. Kullback and R. A. Leibler. On Information and Sufficiency // Annals of Mathematical Statistics, 1951. Vol. 22. P. 79-86.

44. J. L. Hodges, Jr., and E. L. Lehmann. The efficiency of some nonparametric competitors of the t-test // Ann. Math. Statist., 1956. Vol. 27. P. 324-335.

45. J. L. Hodges, Jr., and E. L. Lehmann. Comparison of the normal scores and Wilcoxon tests // In: Proc. 4th Berkeley Symp., 1960. Vol. 1. P. 307-317.

46. J. L. Hodges, Jr., andE. L. Lehmann. Deficiency // Ann. Math. Statist., 1970. Vol. 41. P. 783-801.

47. E. H. Ip. A Stochastic EM Estimator in the Presence of Missing Data. Theory and Practice. PhD Dissertation, Stanford University, 1994.

48. V. Yu. Korolev, N. N. Skvortsova. (Eds) Stochastic Models of Structural Plasma Turbulence. VSP, Leiden-Boston, Netherlands, 2006.

49. L. LeCam. An extension of Wald's theory of statistical decision functions // Ann. Math. Statist., 1955. Vol. 26. P. 69-81.

50. L. LeCam. On the asymptotic theory of estimation and testing hypotheses // In: Proc. 3rd Berkeley Symp. Math. Statist. Probab., 1956. Vol. 1. P. 129-156.

51. L. LeCam. Locally asymptotically normal families of distributions. Univ. of California Publ. in Statist., 1960. Vol. 3. P. 27-98.54.55

52. LeCam. Asymptotic Methods in Statistical Decision Theory. York: Springer, 1986.1. New

53. Y Lo, N. R. Mendell and D. B. Rubin. Testing the number of components in a normal mixture // Biometrika, 2001. Vol. 88. №. 3. P. 767-778.

54. Y. Lo. Likelihood ratio tests of the number of components in a normal mixture with unequal variances // Statistics and Probability Letters, 2005. Vol. 71. P. 225-235.

55. S. F. Nielsen. Stochastic EM algorithm: Estimation and asymptotic results // Bernoulli, 2000. № 6. P. 457-489.

56. G.E. Noether. On a theorem of Pitman // Ann. Math. Statist., 1955. Vol. 26. P. 64-68.

57. N. Ohno, V. P. Budaev, K. Furuta, H. Miyoshi, S. Takamura. Reconstruction of Velocity Distribution of Density Bursts by Wavelet Analysis in the Linear Divertor Simulator NAGDIS-II Contrib // Plas.Phys., 2004. Vol. 44. P. 222-227.

58. E. J. G. Pitman. Lecture notes on nonparametric statistical inference. Lectures given for the University of North Carolina, Institute of Statistics, 1948.

59. K. A. Sarksyan, N. N. Skvortsova, N. K. Kharchev and B. Ph. Milligen. Turbulent ion-acoustic structures in a current-carrying magnetized plasma // Plasma Phys. Rep., 1999. Vol. 25. 312 p.

60. G. Schwartz. Estimating the dimension of a model // The Annals of Statistics, 1978. Vol. 6. P. 461-464.

61. N. N. Skvortsova, D. K. Akulina, G. M. Batanov, et al. Effect of ECRH regime on characteristics of short-wave turbulence in plasma of the L-2M stellarator // Plasma Phys. and Control. Fusion, 2010. Vol. 52.

62. N. N. Skvortsova, V. Yu. Korolev, T. V. Maravina, et al. New possibilities for the mathematical modeling of turbulent transport processes in plasma // Plasma Physics Reports, 2005. Vol. 31. №. 1. P. 57-74.

63. H. Teicher. Identifiability of Finite Mixtures // The Annals of Mathematical Statistics, 1963. Vol. 34. № 4. P. 1265-1269.

64. Q. H. Vuong. Likelihood Ratio Tests for Model Selection and non-nested Hypotheses. Econometrica, 1989. Vol. 57. Iss. 2. P. 307-333.

65. G. C. G. Wei and M. A. Tanner. A Monte Carlo implementation of the EM algorithm and the poor man's data augmentation algorithms // Journal of the American Statistical Association, 1990. Vol. 85. P. 699-704.

66. G. F. Wu. On the convergence properties of the EM-algorithm // The Annals of Statistics, 1983. Vol. 11. № 1. P. 95-103.

67. S. J. Yakowitz, J. D. Spragins. On the Identifiability of Finite Mixtures // The Annals of Mathematical Statistics, 1968. Vol. 39. № 1. P. 209-214.

68. Г. M. Батанов, А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Анализ статистических характеристик турбулентных пульсаций с помощью алгоритмов ЕМ-типа // Материалы научной конференции «Тихоновские чтения». Москва, 2010. С. 62-63.

69. Г. М. Батанов, А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Эволюция вероятностных характеристик низкочастотной турбулентности плазмы в микроволновом поле // Математическое моделирование, 2011. Т. 23. № 5. С. 35-55.

70. В. Е. Бенине, А. К. Горшенин, В. Ю. Королев. Асимптотически оптимальный критерий проверки гипотез о числе компонент смеси вероятностных распределений // Информатика и ее применения, 2011. Т. 5. Вып. 3. С. 4-15.

71. А. К. Горшенин. Проверка гипотез о числе компонент смеси вероятностных распределений // Обозрение прикладной и промышленной математики, 2011. Т. 18. Вып. 2.

72. А. К. Горшенин. Проверка статистических гипотез в модели расщепления компоненты // Вестник Московского Университета, 2011. Серия 15, Вычислительная математика и кибернетика. Т. 4.

73. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Анализ тонкой стохастической структуры хаотических процессов с помощью ядерных оценок // Математическое моделирование, 2011. Т. 23. № 4. С. 83-89.

74. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Бутстреп-методология структурного исследования хаотических процессов // Материалы научной конференции «Тихоновские чтения». Москва, 2010. С. 63-64.

75. А. К. Горшенин, В. Ю. Королев, Д. В. Малахов, Н. Н. Скворцова. Бутстреп-методология исследования структуры хаотических процессов // Материалы Второй международной научной конференции «Моделирование нелинейных процессов и систем». Москва, 2011.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.