Многомерный непараметрический линейный регрессионный анализ тема диссертации и автореферата по ВАК РФ 01.01.05, кандидат физико-математических наук Бусарова, Дарья Алексеевна

  • Бусарова, Дарья Алексеевна
  • кандидат физико-математических науккандидат физико-математических наук
  • 2006, Москва
  • Специальность ВАК РФ01.01.05
  • Количество страниц 119
Бусарова, Дарья Алексеевна. Многомерный непараметрический линейный регрессионный анализ: дис. кандидат физико-математических наук: 01.01.05 - Теория вероятностей и математическая статистика. Москва. 2006. 119 с.

Оглавление диссертации кандидат физико-математических наук Бусарова, Дарья Алексеевна

Введение.

1 Робастное непараметрическое оценивание для задачи многомерной линейной регрессии

1.1 Оценки, основанные на выборочной медиане Оя.

1.1.1 Определения.

1.1.2 Асимптотические распределения оценок Вп и Вп.

1.1.3 Робастность и аффинная эквивариантность оценок Вп и Вп.

1.1.4 Доказательство состоятельности оценок Вп и Вп.

1.1.5 Доказательство асимптотической нормальности оценок Вп*Вп.

1.1.6 Доказательство робастности оценок Вп и Вп.

1.1.7 Доказательство аффинной эквивариантности оценок Вп и Вп.

1.2 Оценки, основанные на "взвешенной" выборочной медиане Оя.

1.2.1 Определения.

1.2.2 Асимптотические распределения оценок В'п и В'п.

1.2.3 Робастность и аффинная эквивариантность оценок В'п и В'п.

1.2.4 Доказательство состоятельности оценок В'п и В'п.

1.2.5 Доказательство асимптотической нормальности оценок К* К.

1.2.6 Доказательство робастности оценок В'п и В'п.

1.2.7 Доказательство аффинной эквивариантности оценок В'п и В'п.

1.3 Асимптотическая эффективность и методы вычисления представленных оценок.

1.3.1 Определения асимптотической эффективности.

1.3.2 Пример подсчета асимптотической эффективности

1.3.3 Методы вычисления оценок.

2 Проверка гипотез о матрице коэффициентов для задачи многомерной линейной регрессии

2.1 Основные определения и распределения статистик при нулевой гипотезе.

2.1.1 Постановка задачи.

2.1.2 Определения статистик Тп и Т'п и их распределения при нулевой гипотезе.

2.1.3 Определения статистик фп и ф'п , их распределения при нулевой гипотезе и аффинная инвариантность.

2.1.4 Доказательства теорем разделов 2.1.2 и 2.1.3.

2.2 Предельные распределения статистик критериев при альтернативах

2.2.1 Основные результаты

2.2.2 Эффективность по Питману.

2.2.3 Пример подсчета эффективности по Питману.

2.2.4 Доказательства теорем.

Рекомендованный список диссертаций по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Многомерный непараметрический линейный регрессионный анализ»

Общая характеристика работы

Актуальность темы. Непараметрические методы статистики - методы математической статистики, не предполагающие знания функционального вида генеральных распределений. Одна из задач многомерного непараметрического анализа - задача многомерной линейной регрессии: т

Уг = А] хг + i = 1, 2, . . . , П, где у{ = (yih yi2,yiq)T и Xi = (хп, xi2,xip)T, г = 1,2,., п - значения отклика и фактора, случайные ошибки £i,£2, . ,£п- независимые одинаково распределенные (q х 1)-векторы, £\ = —£\\ задача - оценить неизвестную (р х q)-матрицу регрессионных коэффициентов Во

Наиболее известным методом решения этой задачи является метод наименьших квадратов (МНК). МНК-оценка аффинно-эквивариантна (т.е. изменяется соответствующим образом при аффинных преобразованиях данных) и, в случае когда случайные ошибки имеют гауссовское распределение, оптимальна. Однако хорошо известно, что эта оценка крайне чувствительна к выбросам - единственное постороннее наблюдение может произвести на нее неограниченное влияние.

Разработка робастных методов оценивания для многомерных и многофакторных линейных моделей привлекает внимание многих авторов. Пу-ри и Сен ([25]) предложили покоординатные ранговые оценки. Рао ([27]) предложил использовать одномерный метод наименьших модулей отдельно для каждой координаты отклика. Конкер и Портной ([18]) обобщили метод Рао и предложили робастные М-оценки, заменив модуль на произвольную функцию. Оценка, предложенная Баи и др. ([7]) минимизирует среднее евклидовых норм остатков. Все эти методы, однако, не являются аффинно-эквивариантными. Руссиу и др. ([30]) в случае случайного фактора предложили робастную аффинно-эквивариантную оценку матрицы регрессионных коэффициентов, основанную на робастной оценке ковариационной матрицы вектора = (жf,2/f)T (но не исследовали ее асимптотические свойства). Оллила и др. ([22]) предложили аналогичный подход, использовав вместо оценки ковариационной матрицы Руссиу выборочную знаковую ковариационную матрицу вектора z\. Их оценка аффинно-эквивариантна, однако не робастна, хотя и более устойчива к выбросам, чем МНК-оценка.

Цель работы. Построение робастных аффинно-эквивариантных непараметрических оценок и проверка гипотез для задачи многомерной линейной регрессии. Исследование асимптотических свойств предложенных оценок и статистических критериев.

Методы исследования. Методика исследования основана на общих методах теории вероятностей, математического анализа и математической статистики. Широко используется теория U-статистик.

Научная новизна результатов. Предложены четыре робастные афинно-эквивариантные оценки матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии, исследованы их асимптотические свойства.

Построены два новых аффинно-инвариантных критерия для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии. Изучены асимптотические свойства статистик критериев как при нулевой гипотезе, так и при последовательности близких альтернатив.

Основные результаты, выносимые на защиту.

• Предложены четыре новые робастные аффинно-эквивариантные оценки Вп, Вп, В'п, В'п матрицы регрессионных коэффициентов для задачи многомерной линейной регрессии. Для этих оценок получены условия состоятельности и асимптотической нормальности, найдены функции влияния.

• Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии предложены две новые тестовые статистики Тп и Т'п, изучены их распределения как при нулевой гипотезе, так и при последовательности близких альтернатив. Построены состоятельные оценки ковариационных матриц этих тестовых статистик при нулевой гипотезе.

• Для проверки гипотезы о равенстве нулю регрессионных коэффициентов для задачи многомерной линейной регрессии рассмотрены две новые аффинно-инвариантные асимптотически свободные от исходных распределений тестовые статистики фп и ф'п, найдены их распределения при нулевой гипотезе и асимптотическая эффективность по Питману соответствующих критериев.

Практическая ценность. Работа носит теоретический характер. Предложенные в работе критерии и оценки могут быть использованы для статистической обработки регрессионного эксперимента. Рекомендуется их использование в задачах, где важно свойство аффинной инвариантности и распределение случайных ошибок может иметь "тяжелые хвосты"по сравнению с нормальным распределением. Оценки ВП) Вп и тестовые статистики Тп, фп рекомендуется использовать в условиях активного эксперимента (когда экспериментатор сам выбирает план эксперимента); оценки В'п, В'п и тестовые статистики Т'п, ф'п могут быть использованы также и в пассивном эксперименте.

Апробация результатов диссертации. Результаты диссертации докладывались на Большом семинаре кафедры теории вероятностей МГУ под руководством член-корр. РАН, проф. А.Н. Ширяева в 2006 г.; на международной конференции "International Conference on Robust Statistics (ICORS) - 2005", Ювяскюля, Финляндия в 2005 г.; на семинаре кафедры теории вероятностей МГУ "Непараметрическая статистика и временные ряды "под руководством проф. Ю.Н. Тюрина, проф. В.Н.

Тутубалина, доц. М.В. Болдина в 2005 г.; на семинаре "Многомерный статистический анализ и вероятностное моделирование реальных процессов"под руководством проф. С.А. Айвазяна в ЦЭМИ РАН в 2006 г.; на семинаре под руководством профессора X. Оя в университете Тампере, Финляндия в 2004 г.

Публикации. Результаты диссертации опубликованы в 4 работах, список которых приведен в конце диссертационной работы.

Структура и объем работы. Диссертационная работа состоит из введения и двух глав. В первой главе исследуется задача робастного аффинно-эквивариантного оценивания в модели многомерной линейной регрессии. Вторая глава посвящена проверке простой гипотезы о матрице регрессионных коэффициентов в модели многомерной линейной регрессии. Текст диссертации изложен на 119 страницах. Список литературы содержит 35 наименований.

Похожие диссертационные работы по специальности «Теория вероятностей и математическая статистика», 01.01.05 шифр ВАК

Заключение диссертации по теме «Теория вероятностей и математическая статистика», Бусарова, Дарья Алексеевна

2.2.1 Основные результаты

В этом разделе мы будем рассматривать исходную задачу (Но, На) как последовательность задач различения гипотез (Но, Нп), где гипотеза Ho : Bq = О проверяется против альтернативы Нп : Во = ггдД для некоторой ненулевой р х q матрицы А. В предыдущем разделе мы нашли предельное распределение статистик Тп, Т'п, фп и ф'п при гипотезе Но, благодаря чему мы смогли построить четыре критерия для проверки гипотезы Щ против альтернативы На. Предельные распределения статистик критериев при альтернативах важны с точки зрения свойств мощности соответствующих критериев. Поэтому, наша задача теперь найти предельные распределения статистик Тп, Т'п, фп и ф'п при альтернативе Нп.

Используя обозначения, введенные ранее, сформулируем теоремы о предельных распределениях статистик Тп и Т'п при гипотезе Нп : Bq = ггДД.

Теорема 2.8. Пусть выполнены условия теоремы 2.1, а также d) в окрестности нуля верно следующее разложение:

Т(р) = Т(О) + А0 + о(\\/3\\), где А - некоторая (pq X pq) -матрица, e) при {/i,., Ipq} £ 1р вероятность события det (b(h). b(Ipq)) = О} П {r(h,Ipq) = l} при гипотезе Щ равна нулю.

Тогда асимптотическое распределение случайного вектора л/пТп при альтернативе Нп есть pq-мерное нормальное с вектором математических ожиданий —Avec(A) и ковариационной матрицей p^q2Y.

Теорема 2.9. Пусть выполнены условия теоремы 2.2, а также d) в окрестности нуля верно следующее разложение: Т'(0) + Л!(3 + о(||/3||), где А! - некоторая (pq X pq) -матрица, e) при {/i,., Ipq} 6 Хр вероятность события det (b(h) . . . b(Ipq)) = о} n [r(Ih ., Ipq) = l} при гипотезе Hq равна нулю.

Тогда при альтернативе Нп предельное распределение статистики \/пТ'п есть Npq(-A'vec(A),pAq2T').

Как следствие теорем 2.8, 2.9, мы получаем следующие основные результаты этого раздела.

Теорема 2.10. Пусть выполнены условия теоремы 2.8 и матрица Г невырождена. Тогда предельное распределение статистики фп при гипотезе Нп - нецентральное х2-распределение с pq степенями свободы и параметром нецентральности ^ (vec(Д))Т АГ1А vec(A).

Теорема 2.11. Пусть выполнены условия теоремы 2.9 и матрица Г' невырождена. Тогда при гипотезе Нп предельное распределение статистики ф'п есть нецентральное х2-распределение с pq степенями свободы и параметром нецентральности (vec(A))T A!Y'~lA! vec(А).

2.2.2 Эффективность по Питману.

Теперь наша задача состоит в том, чтобы выяснить, в каких моделях предложенные нами критерии фп и ф'п являются более предпочтительными по сравнению с другими известными критериями. В предыдущем разделе мы нашли предельные распределения статистик фп и ф'п при нулевой гипотезе и показали, что они являются аффинно-инвариантными. Напомним, что при прочих равных условиях из двух критериев одинакового асимптотического размера а для данной модели лучшим считается тот, который имеет наибольшую предельную мощность. На основе этого соображения важным считается следующее понятие эффективности по Питману [21]:

Определение 2.4. Пусть {£п} и {£*} - две последовательности статистик критериев асимптотического размера а для проверки гипотезы Hq : 9 = 9 о против альтернативы На '■ 9 ф 9q. Пусть Нп : 9 = 9п - последовательность альтернатив и 9п —У до при п —> оо. Далее, обозначим 7п(9п) и 7п{@п) ~ мощности критериев {£п} и {£*} при гипотезе Нп, соответственно. Если

Ир 7П(0П) = lip 7ln){9n) = 7,

7 ф 0,1 и предел lim^oo ^ существует и ограничен, то этот предел называется относительной эффективностью Питмана статистики критерия {&} по отношению к статистике критерия {£*} для уровня значимости а, мощности 7 и последовательности альтернатив Нп.

Будем обозначать эту эффективность как е(£п, £*), помня при этом, что е(£п, £*) зависит также от а, 7 и 9п.

Итак, найдем асимптотические эффективности Питмана критериев на основе статистик if,'п и ф'п относительно оптимального критерия.

Дадим определения. Пусть распределение Fq имеет плотность f(0, х) ( везде далее будем определять плотность относительно лебеговской меры в абсолютно непрерывном случае, и относительно считающей меры - в дискретном случае). Предположим, что матрица информации

1(в)= E0(vin/(0,aOVln/(M)T) существует и положительно определена.

Пусть п д(0) = 5>/(мо i=i обозначает логарифм от функции правдоподобия, п

S[e) = VD(e) = -Y,L(e,Xi) г=1

- ее градиент (здесь Ь(в,х{) = — Vln/(0, ж^)), и вп обозначает оценку максимального правдоподобия.

Рассмотрим задачу проверки простой гипотезы Hq : в = G Rk- Ее решение может быть основано на одной из трех асимптотически эквивалентных статистик: n = 2(D(en)-D(eQ)), Wn = пвТп1п(вп)вп и vn = n-1s(0o)Ti;1(eo)S(Oo), где 1п(в) = ^ Ya=i xi)LT{®i xi) есть состоятельная оценка для 1(0). Статистика Хп основана на методе отношения правдоподобий и была введена Нейманом и Пирсоном (см. [19]), статистика Wn - Вальдом ([35]), a Vn - Рао ([26]). При некоторых условиях регулярности все три упомянутые тестовые статистики при гипотезе Щ слабо сходятся к ^-распределению с к степенями свободы, а при последовательности близких альтернатив Нп\в — Oq -к xl (<$т/(0о)^)-распределнию.

Согласно найденным нами в разделе 2.2.1 асимптотическим распределениям статистик фп и ф'п при гипотезе Нп, задача нахождения их асимптотических эффективностей Питмана упрощается с помощью следующей теоремы Ханнана [14]:

Теорема 2.12 (Ханнан). Предположим, что статистики критериев £п и £* при альтернативе Нп \ в = 9п слабо сходятся к случайным величинам с распределениями xl(Ai) и А2); соответственно. Тогда е(Сп)Сп) не зависит от а, но зависит от 7 и вп через параметры Ai и Х2.

В силу вышесказанного, асимптотические эффективности Питмана критериев на основе статистик фп и ф'п относительно оптимального критерия (например, на основе \п) есть, соответственно 8тАТ^А6 дтА'Г'~1А'д п)~ р^дт 1(0)6' где матрица информации 1(0) задается формулой (1. 137).

2.2.3 Пример подсчета эффективности по Питману.

Рассмотрим линейную регрессионную модель

Vi = Ал + А)2Жг + е», г = 1,., п где Xi ~ Bin(l, 1/2) и ~ F есть независимые одинаково распределенные случайные величины. Очевидно, что в этом случае статистики фп и ф'п, а значит и их асимптотические эффективности по Питману совпадают. Итак, вычислим 8тАТ~1А6 165т1(0)8'

L(zi) = hL(yi)x i, K(zi) - h\(yi)xi,

Поскольку где и где 1

ЛдМ = ^(г/з Sgn(2/22/4 - У1У3) I Zl), то есть векторы L(z\) я A(z{) коллинеарны, то в силу представления (1. И), определения матрицы Г и формулы (1.137), получим, что матрицы АТ~1А =

WY~lW (где матрица W определена в теореме 1.2) и 1(0) пропорциональны. Поэтому асимптотическая эффективность по Питману е не зависит от д и равна (см. раздел 1.3.2):

Ео{уФь(у1) sgn(y2yA - ут)\

Eo(h2L(yi))Eo[y3yQ sgn((y2|/4 - Уш)(2Ш - Ут))}'

Асимптотическая эффективность статистик фпиф'пв данном примере совпадает с асимптотической эффективностью оценок ВП} Вп, В'п и В'п, представленных в главе 1, поэтому можно воспользоваться результатами таблицы 1.2 раздела 1.3.2 (приведем их в таблице 2.1).

Список литературы диссертационного исследования кандидат физико-математических наук Бусарова, Дарья Алексеевна, 2006 год

1. Андерсон, Т. (196S. Введение в многомерный статистический анализ.Физматгнз, Москва.

2. Большев Л.Н., Смирнов Н.Б. (1983) Таблицы математической стати- стики. Наука, Москва.

3. Ермаков М., Жиглявский А. А. (1982), Математическая теория оп- тимального эксперимента. Наука, Москва.

4. Ильин В.А., Садовничий В.А., Сендов Бл. X. {1%7)Математический анализ. Изд-во МГУ, Москва.

5. Хьюбер П. (1984) Робастность в статистике. Мир, Москва.

6. Ширяев А.Н. (2004) Вероятность. МЦНМО, Москва.

7. Bai Z.D., Chen N.R., Miao B.Q. and Rao C.R. (1990) Asymptotic theory of least distances estimate in multivariate hnear models. Statistics, 21, 503 -519.

8. Bassett G.W. (1988) A p-Subset property of Li and regression quantile estimates. Computational Statistics and Data Analysis., 6, 297 - 304.

9. Bickel P.J. (1964) On some alternative Estimates of Shift in the P-Variate One Sample Problem. Ann. Math. Statist, 35, 1079 - 1090.

10. Cramer H. (1946) Mathematical Methods of Statistics. Princeton Univ. Press, Princeton.

11. Hampel F.R. (1968) Contributions to the theory of robust estimation. Ph. D. Thesis. Berkeley: Univ. California

12. Hampel F.R. (1974) The influence curve and its role in robust estimation. J. Amer. Statist. Ass., v. 69, 346, p. 383 - 393116

13. Hampel F.R., Ronchetti E.M., Rousseeuw P.J. and Stahel W.A. (1986) Robust Statistics: The Approach Based on Influence Functions, Wiley, New York.

14. Hannan E.G. (1956) The asymptotic power of tests based upon multiple correlation. J. Roy. Statist. Soc. Ser. B, 18, 227 - 233.

15. Hawkins D.M., Bradu D. and Kass G.V. (1984) Location of several outliers in multiple regression data using elemental sets. Technometrics, 26, 197 - 208.

16. Hawkins D.M. (1993) The accuracy of elemental set approximations for regression. J. Am. Stat. Assoc, 88, 580 - 589.

17. Koenker R. and Bassett G.W. (1978) Regression quantiles. Econometrica, 46, 33 - 50.

18. Koenker R. and Portnoy S. (1990) M-estimation of multivariate regressions. J. Am. Statist. Ass., 85, 1060 - 1068.

19. Neyman J. and Pearson E.S. (1928) On the use and interpretation of certain test criteria for purposes of statistical inference. Biometrica, 20A, 175 - 240and 263 -294.

20. Niinimaa A., Oja H., Nyblom J. (1992) Algorithm AS 277: the Oja bivariate median. Appl. Statist., 41, 611 - 617.

21. Noether G.E. (1995) On a theorem of Pitman, Ann. Math. Statist, 26, 64 -68.

22. Ollila E., Oja, H. and Hettmansperger T.P. (2002) Estimates of regression coefficients based on the sign covariance matrix. J. R. Statist. Soc. Ser. B,64, part 3, 447 - 466.

23. Oja H. (1983), Descriptive Statistics for Multivariate Distributions. Stat. Probab. Lett, 1, 327-332.

24. Pollard D. (1991) Asymptotics for least absolute deviation regression estimators. Econometric Theory, 7, 186 - 199.117

25. Puri M.L. and Sen P.K. (1985) Nonparametric Methods in General Linear Models. New York: Wiley.

26. Rao C.R. (1947) Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimations. Proc. Comb.Phil. Soc, 44, 50 - 57.

27. Rao C.R. (1988) Methodology based on Li-norm in statistical inference. Sankhya A, 50, 289 - 313.

28. Rockafellar R.T. (1970) Convex Analysis, Princeton, NJ: Princeton University Press.

29. Rousseeuw P. J. and Leroy A. (1987) Robust Regression and Outlier Detection. New York: Wiley.

30. Rousseeuw P.J., Van Driessen K., Van Aelst S. and Agullo J. (2004) Robust multivariate regression. Technometrics, 46, 293 - 305.

31. Serfling R.J. (1980), Approximation Theorems of Mathematical Statistics. John Wiley, New York.

32. Sheynin O.B. (1973) R.J. Boscovich's work on probability. Arch. Hist. Exact Sci., 9, 306-324.

33. Siegel A.F. (1982) Robust regression using repeated medians. Biometrica, 69, 242 - 244.

34. Theil H. (1950) A rank-invariant method of linear and polynomial regression analysis (Parts 1-3). Ned. Akad. Wetensch. Proc. Ser. A, 53, 386 - 392, 521- 525, 1397 - 1412.

35. Wald A. (1943) Tests of statistical hypotheses concerning several parameters when the number of observations is large . Trans. Amer. Math. Soc, 54, 426-482.118Публикации автора ио теме диссерта-ции.

36. Бусарова Д. А. (2006) Проверка гинотез о матрице коэффициентов мно- гомерной линейной регрессии. Вестн. Моск. ун-та. Сер. 1, Математи-ка. Механика., 4, с. 8 - 14.

37. Бусарова Д. А. (2006) Робастное оценивание матрицы коэффициентов в многомерной линейной регрессионной модели. Успехи математическихнаук, 61, вынуск 3, с. 169 - 170.

38. Бивагоуа D., Tyurin Y., Mottonen J. and Oja Н. (2006) Multivariate Theil estimator with the corresponding test. Mathematical methods of statistics,15, 1, pp. 1 - 19.

39. Busarova D. (2005) Robust multivariate regression. ICORS-2005 (International Conference on Robust Statistics), Abstracts, p. 9.119

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.