Математическое и программное обеспечение оценки достоверности результатов массового тестирования тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Карпинский, Виктор Болеславович

  • Карпинский, Виктор Болеславович
  • кандидат технических науккандидат технических наук
  • 2009, Великий Новгород
  • Специальность ВАК РФ05.13.18
  • Количество страниц 132
Карпинский, Виктор Болеславович. Математическое и программное обеспечение оценки достоверности результатов массового тестирования: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Великий Новгород. 2009. 132 с.

Оглавление диссертации кандидат технических наук Карпинский, Виктор Болеславович

Введение

Глава 1. Математическое моделирование тестирования

1.1. Математические модели Раша

1.2. Статистические критерии достоверности измерения

1.2.1. Базовая статистика — нормированные уклонения

1.2.2. Статистики согласия для испытуемых

Глава 2. Исследование статистик согласия

2.1. Общая методология исследования

2.1.1. Генерация модельных матриц и искажений

2.1.2. Моделирование по реальным прототипам

2.1.3. Конструирование распределения параметров модели

2.2. Исследование базовой статистики

2.2.1. Распределение нормированных уклонений

2.2.2. Причины особенностей распределения

2.2.3. Аппроксимация эмпирического распределения

2.3. Исследование других статистик

2.3.1. Эмпирические распределения статистик согласия

2.3.2. Эффективность статистических критериев

Глава 3. Технология оценки достоверности результатов тестирования

3.1. Оптимизация выбора критических значений

3.2. Композиционный критерий

3.3. Технология обработки данных тестирования

3.4. Программное обеспечение

3.5. Экспериментальная проверка

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математическое и программное обеспечение оценки достоверности результатов массового тестирования»

Актуальность темы исследования. Решение прикладных проблем и исследование естественнонаучных, социальных, экономических и технических объектов зачастую сводится к задаче измерения их латентных (скрытых от наблюдения) характеристик. Это измерение возможно только по данным тестирования (мониторинга). Полученная оценка латентной характеристики должна быть объективна, надёжна и достоверна. Поэтому актуальной является задача разработки специальных математических методов, позволяющих оценивать достоверность измерения латентных характеристик объектов.

Важным частным случаем является педагогическое тестирование. Для управления в сфере образования необходима объективная оценка качества подготовки лиц, освоивших образовательные программы. Это качество (уровень подготовленности) является латентной характеристикой и оценивается по данным тестирования с использованием заданий стандартизированной формы — контрольных измерительных материалов.

Родоначальником раздела науки, изучающего методы обработки результатов тестирования в рамках определённого типа математических моделей, явился датский учёный Георг Раш (George Rasch, 1901-1980). В работе [44], изданной в 1960 году, Г. Раш исходит из предположения, что чем выше уровень подготовленности испытуемого и чем ниже уровень трудности задания, тем выше вероятность того, что задание будет выполнено испытуемым верно. Это, в соответствии с предложенным Т. Бейесом подходом к оценке неизвестного параметра по результатам наблюдений, позволяет использовать для решения задачи мощный аппарат математической статистики. Очевидно, что процесс выполнения испытуемым теста случайным, в общем случае, не является. Однако применима информационная интерпретация понятий «случайность» и «вероятность» в математике: тестирование как процесс измерения связано с уменьшением неопределённости наших сведений об объекте, мерой неопределённости события служит его вероятность.

Это направление получило значительное развитие в работах таких зарубежных специалистов как B.D.Wright [54-56], R. М. Smith [47-51], Н. Huynh [39, 40], G. Karabatsos [41, 42] и других, а также отечественных учёных Ю. М. Неймана [30-32, 21-23], Е. Ю. Кардановой [9-24].

В силу присущих им преимуществ (объективности, возможности контроля точности измерения, метрического характера шкалы) наиболее обоснован выбор для решения данной задачи семейства математических моделей тестирования Г. Раша, играющих большую роль в теории моделирования и параметризации тестов (ТМГГГ, в англоязычной литературе IRT) современной теории тестирования. В данном диссертационном исследовании используется полигамическая модель Раша.

В рамках этой модели западными специалистами предложен ряд статистических критериев для проверки гипотезы о достоверности или недостоверности результатов тестирования [35, 37, 43, 45-46]. Однако эффективность этих методов была неоднократно подвергнута критике (например, в [41]). На начальных этапах настоящего исследования [26, 15] было показано, что их эффективность недостаточна в случае массового тестирования, и требуется разработка более эффективных методов. Таким образом, задача исследовать имеющиеся методы оценки достоверности результатов тестирования, выбрать или сконструировать статистический критерий, достаточно эффективный для массового тестирования, разработать и реализовать технологию оценки достоверности результатов массового тестирования является актуальной.

Целью исследования является разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов оценивания достоверности результатов массового тестирования на основе математической модели Раша.

Для достижения поставленной цели необходимо решить следующие задачи:

-— исследование и обоснованный выбор математических моделей, позволяющих оценивать достоверность результатов тестирования; разработка математических методов и алгоритмов проверки соответствия экспериментальных данных математической модели для выявления в них случаев искажения, приводящего к недостоверности результатов измерения латентной характеристики; развитие приближённых статистических методов для исследования математической модели результатов тестирования, как содержащих, так и не содержащих искажения; разработка, обоснование и тестирование эффективных методов и алгоритмов обработки результатов массового тестирования с применением ЭВМ; их реализация в виде комплекса проблемно-ориентированных программ, пригодных как для прикладного использования, так и для проведения вычислительных экспериментов; экспериментальная проверка разработанных методов и алгоритмов с использованием реальных данных ЕГЭ.

Объектом исследования являются массовое тестирование (мониторинг) и его математические модели в сфере образования, а также иных социальных, экономических, технических и естественнонаучных сферах деятельности.

Предметом исследования является достоверность результатов массового тестирования (мониторинга) в части оценивания латентных характеристик объектов для принятия решений в указанных сферах.

Методы исследования включают в себя:

1) методы теории моделирования и параметризации тестов, основанные на математической модели Г. Раша;

2) методы математической статистики, в частности, методы проверки статистических гипотез и методы аппроксимации и сглаживания эмпирических распределений;

3) методы математической теории принятия решений, в частности, методы оптимизации и оценивания рисков;

4) методы алгоритмизации и программной реализации математических моделей;

5) вычислительный эксперимент на реальных и модельных данных.

Научная новизна разработанных автором методов и алгоритмов оценки достоверности результатов массового тестирования обусловлена следующими новыми решениями: исследована эффективность ранее известных методов выявления недостоверных результатов измерения испытуемых для целей массового тестирования или мониторинга; разработан композиционный статистический критерий для проверки гипотезы о достоверности результатов массового тестирования; разработан метод оптимизации критических значений используемых статистик; разработана технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения; разработан комплекс программ для реализации указанных математических моделей, методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

Практическая значимость результатов исследования заключается в разработке и реализации в виде комплекса программ конкретной технологии обработки данных массового тестирования (мониторинга), включая ЕГЭ, применимой для выявления случаев недостоверности его результатов.

Достоверность научных результатов обеспечивается постоянным, на каждом этапе исследования, контролем прецизионности [8] используемых методов и процедур в соответствии с требованиями государственной системы обеспечения единства измерений [5, 7], а также всесторонней эмпирической проверкой результатов сериями вычислительных экспериментов с использованием реальных данных ЕГЭ за прошлые годы. Все используемые методы на основе метрологических показателей (ошибка измерения, прецизионность, воспроизводимость, статистическая достаточность) признаны дающими достоверный результат на соответствующем задаче уровне значимости. На защиту выносятся:

1) алгоритм формирования композиционного статистического критерия для проверки гипотезы о достоверности результатов массового тестирования;

2) метод оптимизации критических значений используемых статистик на специально конструируемых модельных данных;

3) технология обработки данных массового тестирования (мониторинга) с целью выявления случаев недостоверного измерения;

4) комплекс программ для реализации указанных моделей, методов и алгоритмов, в том числе для проведения вычислительных экспериментов.

Апробация результатов исследования и публикации. Основные результаты исследования были доложены на VIII Всероссийском симпозиуме по прикладной и промышленной математике (Сочи, РФ, 2007), Международной конференции «Моделирование и параметризация педагогических тестов» (Минск, Беларусь, 2007), Международной научно-методической конференции «Математика в ВУЗе» (Санкт-Петербург, 2007), VIII Всероссийской научно-методической конференции «Развитие тестовых технологий в России» (Москва, 2006). Автор участвовал в следующих научно-исследовательских проектах, связанных с темой исследования: «Выработка критериев аннулирования результатов отдельных испытуемых при проведении ЕГЭ и ЦТ» (Федеральный центр тестирования МО РФ, 2006); «Разработка структуры статистического анализа результатов ЕГЭ с целью обнаружения недостоверных результатов ЕГЭ» (Федеральный центр тестирования МО РФ, 2008). По теме диссертации опубликовано 10 статей.

Структура и объём диссертации. Диссертация состоит из введения, трёх глав и заключения, изложенных на 94 страницах, а также списка литературы и приложений. Формулы, рисунки и таблицы нумеруются по иерархическому принципу, то есть формула (1.2.3) есть третья формула второго параграфа первой главы. Объекты каждого типа нумеруются независимо друг от друга, то есть рисунок (1.2.3) не обязательно связан с таблицей 1.2.3. В работе имеются 31 рисунок и 22 таблицы. Список литературы содержит 56 наименований.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Карпинский, Виктор Болеславович

Заключение

Целью данного диссертационного исследования являлась разработка и реализация в виде комплекса программ специальных математических методов и алгоритмов оценивания достоверности результатов массового тестирования на основе математической модели Раша.

В качестве математической модели тестирования мотивированно выбрана политомическая модель Г. Раша. В ходе исследования она была усовершенствована в части оценки достоверности результатов массового тестирования. Проведено теоретическое и эмпирическое исследование эффективности традиционных методов для оценки достоверности результатов массового тестирования, основанных на использовании статистик согласия. Выявлены недостатки этих методов, связанные с существенным для данной задачи отличием распределения статистик согласия от теоретического распределения, которому они приближённо соответствуют. Это порождает проблему выбора критического значения, без решения которой указанные методы не позволяют с достаточной эффективностью выявлять в данных массового тестирования недостоверные результаты. По результатам исследования разработаны методы устранения выявленных недостатков и решения указанной проблемы: метод выбора критического значения путём оптимизации суммарных потерь на специально конструируемых модельных данных и алгоритм формирования композиционного статистического критерия.

На основе этого получены следующие результаты:

1) разработан и обоснован метод выбора критических значений для статистик согласия путём оптимизации функции суммарных потерь на специально сконструированных модельных данных;

2) разработаны методы конструирования этих модельных данных на основе математической модели Раша;

3) разработан алгоритм формирования более эффективного, чем статистики согласия, композиционного статистического критерия;

93

4) на этой основе разработана технология обработки данных массового тестирования для выявления недостоверных результатов;

5) разработан комплекс программ для реализации указанных математических моделей; методов и алгоритмов, а также выполнения их эмпирической проверки в форме вычислительных экспериментов.

С использованием этого комплекса программ выполнена? экспериментальная проверка разработанной технологии обработки данных массового тестирования на примере результатов ЕГЭ прошлых лет. Было показано, что разработанная технология пригодна для прикладного использования в заявленных целях. Намечены пути- дальнейшего её совершенствования и расширения области применения: исследование более широкого круга статистических критериев; включая непараметрические; дальнейшие исследования и совершенствование композиционной! статистики; применение разработанной технологии оценивания достоверности измерения латентной характеристики к иным, не связанным с педагогическим тестированием, прикладным задачам.

Предложенные в данной диссертационной» работе: специальные математические методы и алгоритмы выявления недостоверных результатов в данных массового тестирования реализованы в виде комплекса программ, показали свою эффективность и практическую применимость. Таким образом, разработано математическое и программное обеспечение оценки достоверности результатов массового тестирования^

Перечень сокращений и условных обозначений

ЕГЭ — единый государственный экзамен.

ЕСПД — Единая система программной документации. логит — единица метрической шкалы, используемой в измерениях латентных величин, подробнее п. 1.1 и [30]. МО РФ — Министерство образования и науки Российской Федерации. ППЭ — пункт проведения экзамена, профиль испытуемого (задания) — подробнее в п. 1.1. с.к.о. — среднеквадратическое отклонение. ТМГТГ — теория моделирования и параметризации тестов. ЦТ — централизованное тестирование. ЭВМ — электронно-вычислительная машина, компьютер. arcsh — гиперболический арксинус. csv — текстовый формат с разделителями полей «;» или табуляцией, совместимый с Microsoft Excel, dat — специализированный для программного обеспечения, не предполагающий совместимости, формат файла для хранения данных. F(a;b) — распределение Фишера-Снедекора с числом степеней свободы числителя а и числом степеней свободы знаменателя Ь. IRT — Item Response Theory, англоязычный аналог названия ТМГТГ. N(0; 1) — стандартизованное нормальное распределение, random — генератор равномерно на отрезке [0; 1] распределённой случайной величины. ROC-кривые — подробнее в п. 2.3.2.

Примечание'. Остальные аббревиатуры в тексте представляют собой идентификаторы, то есть условные, не требующие осмысленной расшифровки, обозначения, объяснённые в контексте. Например: AIR, IST, НН000 и т.д.

Список литературы диссертационного исследования кандидат технических наук Карпинский, Виктор Болеславович, 2009 год

1. Аверкин В. Н. Повышение объективности мониторинга в региональной системе управления образованием / В. Н. Аверкин, С. В. Аверкин, Е. Ю. Карданова, В. Б. Карпинский // Народное образование. 2008. — №2.

2. Вадзинский Р. Н. Справочник по вероятностным распределениям / Р. Н. Вадзинский СПб.: Наука, 2001. - 295 с.

3. Вероятностные разделы математики / под редакцией Максимова Ю. Д. СПб., Иван Федоров, 2001, 588 с.

4. Гмурман В. В. Теория вероятностей и математическая статистика / Гмурман В. В. М.: Высшая школа, 2002. — 479 с.

5. ГОСТ Р 8.000-2000. Государственная система обеспечения единства измерений. Основные положения. М.: Издательство стандартов, 2000.

6. ГОСТ 19.701-90 (ИСО 5807-85). Единая система программной документации. Схемы алгоритмов, программ, данных и систем. Введён с 01.01.92. - М.: Издательство стандартов, 2005.

7. ГОСТ Р 8.596-2002. Государственная система обеспечения единства измерений. Метрологическое обеспечение измерительных систем. Основные положения. М.: ИПК Издательство стандартов, 2002.

8. ГОСТ Р ИСО 5725. Точность (правильность и прецизионность) методов и результатов измерений. Части 1-6 М.: ИПК Издательство стандартов, 2002.

9. Карданова Е. Ю. Доказательство применимости политомической модели Г. Раша / Е. Ю. Карданова // Вестник Новгородского государственного университета. -2006. — № 39. С. 13-15.

10. Карданова Е. Ю. Моделирование и параметризации тестов: основы теории и приложения. / Е. Ю. Карданова —М.: Федеральный центр тестирования, 2008. — 292 с.

11. Карданова Б. Ю. О применимости политомической модели Г.Раша к тестовым заданиям различных форм, оцениваемым политомически / Е. Ю. Карданова // Вопросы тестирования в образовании, 2005, №16, с. 44-56.

12. Карданова Е. Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования / Е. Ю. Карданова // Вопросы тестирования в образовании, 2004. — № 10. — С. 28.

13. Карданова Е. Ю. Применение многопараметрического анализа для исследования деятельности экспертов / Е. Ю. Карданова // Вопросы тестирования в образовании, 2005. — № 14. — С. 6-31.

14. Карданова Е. Ю. Анализ данных многокритериального мониторинга в региональной системе управления качеством образования / Карданова Е. Ю., Карпинский В. Б. // Обозрение прикладной и промышленной математики, 2007. — Т. 14, выпуск 4. — С. 715-716.

15. Карданова Е. Ю. Обнаружение искажений при тестировании с использованием математической модели Г. Раша / Карданова Е. Ю., Карпинский В. Б. // Обозрение прикладной и промышленной математики, 2007. — Т. 14, выпуск 4. — С. 716-717.

16. Карданова Е. Ю. Специальные методы анализа результатов тестирования, основанные на свойстве объективности моделей Раша / Карданова Е. Ю., Карпинский В. Б. // Информационные технологии, 2008.4(140). —С. 72-80.

17. Карданова Е. Ю. Технология обработки информации в многокритериальном мониторинге на основе политомической модели Г. Раша / Карданова Е. Ю., Карпинский В. Б. // Системы управления и информационные технологии, 2007. — № 3.1(29). — С. 149-154.

18. Карданова Е. Ю. Как формально определить понятия «уровень подготовленности» и «уровень трудности задания»? / Карданова Е. Ю., Нейман Ю. М. // Вопросы тестирования в образовании, 2004. — № 12.- С. 7-17.

19. Карданова Е. Ю. Основные модели современной теории тестирования / Карданова Е. Ю., Нейман Ю. М. // Вопросы тестирования в образовании, 2003. — № 7. — 26 с.

20. Карданова Е. Ю. Проблема выравнивания в современной теории тестирования / Карданова Е. Ю., Нейман Ю. М. // Вопросы тестирования в образовании, 2003. — № 8. — С. 21-40.

21. Карпинский В. Б. Использование композиционного статистического критерия для обнаружения искажений при массовом тестировании /

22. Карпинский В. Б. // Вестник Новгородского- государственного университета имени Ярослава Мудрого, 2007. — № 44. — С. 30-33

23. Карпинский В. Б. Исследование эффективности общих статистик согласия для обнаружения искажений при массовом тестировании / Карпинский В. Б. // Вопросы тестирования в образовании, 2006. № 1(17).1. С. 7-14.

24. Кобзарь А. И. Прикладная математическая статистика / Кобзарь А. И.

25. М.: Физматлит, 2006. — 814 с.

26. КорнГ.А. Справочник по математике для научных работников и инженеров / Корн Г.А., Корн Т.М. М.: Наука, 1984. — 831 с.

27. Молочков В. П. От Delphi 7 к Delphi 2006 / Молочков В. П., Карпинский В. Б. — М.: Диалог-МИФИ, 2007. — 304 с.

28. Нейман Ю. М. Введение в теорию моделирования и параметризации педагогических тестов / Нейман Ю. М., Хлебников В. А. М.: Прометей, 2000. —169 с.

29. Нейман Ю. М. Задача тестирования в терминах классической теории оценивания параметров, / Нейман Ю. М., Хлебников В. А. // Вопросы тестирования в образовании, 2003. — № 8.

30. Нейман Ю. М. Педагогическое тестирование как измерение / Нейман Ю. М., Хлебников В. А. М.: Центр тестирования МО РФ, 2002.67 с.

31. Орлов А. И. Теория принятия решений / Орлов А. И. —М.: Экзамен, 2006. — 573 с.

32. Banerji М. Construct Validity of Scores. Measures from a Developmental Assessment in Mathematics using Classical and Many-Facet Rasch Measurement / Banerji M. // Journal of Applied Measurement, 2000. — 1(2). — pp. 177-198.

33. Dimitrov D. M. Adjusted Rasch Person-Fit Statistics / Dimitrov D. M., Smith R. M. // Journal of Applied Measurement, 2006. — 7(2). — pp. 170-183.

34. Dodd B. G. Item Information as a Function of Information of Threshold Values in the Rating Scale Model / Dodd B. G., De Ayala R. J. In M. Wilson ed. // Objective measurement: Theory into Practice. —Norwood: NJ, Ablex, 1994.pp. 301-317.

35. Gustafsson J.-E. Testing and obtaining fit of data to the Rasch model / Gustafsson J.-E. // British Journal of Mathematical and Statistical Psychology, 1980. — 33. — pp. 205-233.

36. Hambleton R. K. Fundamentals of Item Response Theory. Newbury Rark / Hambleton R. K., Swaminathan H., Rogers H. J. — London, New Delhi: Sage Publications, 1991. — 173 p.

37. HuynhH. Decomposition of a Rasch Partial Credit Item into Independent Binary and Indecomposable Trinary Items / HuynhH. // Psychometrika, 1996.vol. 61. — № 1. — pp. 31-39.

38. Huynh H. On Equivalence between a Partial Credit Item and a Set of Independent Rasch Binary Items / Huynh H. // Psychometrika, 1994. — vol. 59/1/ —pp. 111-119.

39. Karabatsos G. A Critique of Rasch Residual Fit Statistics / Karabatsos G. // Journal of Applied Measurement, 2000. — vol. 1. — № 2.

40. Karabatsos G. Comparing the Aberrant Response Detection Performance of Thirty-Six Person-Fit Statistics / Karabatsos G. // Applied Measurement in Education. 2003, Vol.16, №4, p.277-298

41. Ponocny I. Nonparametric Goodness-of-fit Tests for the Rasch Model / Ponocny I. // Psychometrika, 2001. — vol. 66. — № 3. — pp. 437-460.

42. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests / Rasch G. — MESA Press, 5835 Kimbark, Chicago 60637, USA, 1993.

43. Smith E. V. Detecting and Evaluating the Impact of Multidimensionality using Item Fit Statistics and Principal Component Analysis of Residuals / Smith E. V. // Journal of Applied Measurement, 2000. —Vol.1. —№2. -pp. 199-218.

44. Smith E. V. Introduction to Rasch Measurement / Smith E. V., Smith R. M.- Maple Grove, Minnesota: JAM Press, 2004. — 687 p.

45. Smith R. M. Fit Analysis in Latent Trait Measurement Models / Smith R. M. // Journal of Applied Measurement, 2000. —Vol. 1. —№2. — pp. 199-218.

46. Smith R. M. IPARAM: Item & Person Analysis with the Rasch model / Smith R. M. — Mesa Press, Chicago, 1991.

47. Smith R. M. Person and Item Analysis / Smith R. M. — Mesa Press, Chicago, 1992.

48. Smith R. M. Rasch Measurement Models: Interpreting Winsteps / Smith R. M. // Bigsteps and Facets Output. Maple Grove. Minnesota: JAM Press, 1999. — 58 p.

49. Smith R. M. The Distributional Properties of Rasch Standardized Residuals / Smith R. M. // Educational and Psychological Measurement. — 1988. V. 48.- pp. 657-667.

50. Wollenberg A. L. A Simple and Effective Method to Test the Dimensionality Axiom of the Rasch Model / A. L. van den Wollenberg // Applied Psychological Measurement — 1982. — Vol. 6. — № 1. — pp. 83-91.

51. Wollenberg A. L. Two New Test Statistics for the Rasch Model / A. L. van den Wollenberg // Psychometrika — 1982. — Vol. 47. — № 2.- pp. 123-139.

52. Wright B. D. Best Test Design. Rasch Measurement / Wright B. D., Stone M. N. — Chicago: Mesa Press, 1979. — 223 p.

53. Wright B. D. Rasch Model Overview / Wright B. D., Mok M. // Journal of Applied Measurement. 2000. — vol.1. —№1. — pp. 83-106

54. Wright B. D. Rating Scale Analysis. Rasch Measurement / Wright B. D., Masters G. N. — Chicago, Mesa Press, 1982. — 206 p.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.