Математические модели тестирования, позволяющие осуществлять измерения тема диссертации и автореферата по ВАК РФ 05.13.18, кандидат технических наук Овчинников, Всеволод Валентинович

  • Овчинников, Всеволод Валентинович
  • кандидат технических науккандидат технических наук
  • 2006, Великий Новгород
  • Специальность ВАК РФ05.13.18
  • Количество страниц 106
Овчинников, Всеволод Валентинович. Математические модели тестирования, позволяющие осуществлять измерения: дис. кандидат технических наук: 05.13.18 - Математическое моделирование, численные методы и комплексы программ. Великий Новгород. 2006. 106 с.

Оглавление диссертации кандидат технических наук Овчинников, Всеволод Валентинович

Введение

1 Основные модели теории тестирования

1.1 Классическая теория тестирования.

1.2 Теория моделирования и параметризации тестов.

1.2.1 Нормальная модель.

1.2.2 Однопараметрическая модель Раша.

1.2.3 Двухпараметрическая модель Бирнбаума.

1.2.4 Трехпараметрическая модель Бирнбаума.

2 Измерения и модели

2.1 Исследование измерительных возможностей процедуры тестирования.

2.2 Модель, позволяющая производить измерения.

2.3 Модель, позволяющая производить измерения. Политомический случай.

3 Прикладные вопросы ТПМТ

3.1 Методы оценивания.

3.1.1 Классический метод максимального правдоподобия и его применение.

3.1.2 Метод безусловного максимального правдоподобия и его применение.

3.1.3 Метод условного максимального правдоподобия и его применение.

3.1.4 Метод, основанный на классическом подходе к оцениванию параметров.

3.2 Характеристическая функция теста.

3.2.1 ХФТ при равномерном распределении трудностей тестовых заданий.

3.2.2 ХФТ при нормальном распределении трудностей тестовых заданий.

3.2.3 Сравнение ХФТ при различных распределениях трудностей заданий.

3.3 Конструирование тестов.

3.3.1 Информационная функция задания. Информационная функция теста.

3.3.2 Весовая функция задания. Весовая функция теста

3.3.3 Задача линейного программирования.

3.3.4 Линейное программирование и конструирование тестов

Рекомендованный список диссертаций по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математические модели тестирования, позволяющие осуществлять измерения»

Данная работа посвящена использованию математических моделей в такой казалось бы нетрадиционной для математики области как педагогическое тестирование. Основная цель - теоретически исследовать возможности оценивать учебные достижения испытуемых на метрической шкале и трактовать, таким образом, педагогическое тестирование как процесс измерения - в полном смысле этого слова. Понятно, что подобная трактовка возможна только в рамках определенной модели, и наша задача - выделить тот класс моделей, которые действительно позволяют отказаться от традиционной порядковой шкалы (отлично, хорошо и т.п.) и перейти на детальную шкалу интервалов.

Идея массового оценивания каких-либо характеристик испытуемых при помощи более дешевых и более объективных, по сравнению с экспертными оценками, тестов возникла достаточно давно. Однако реальное научное обоснование заложено только в конце прошлого столетия в работах математиков G. Rasch (Дания) и W. Wright (США), показавших принципиальную возможность инвариантности количественных характеристик испытуемых относительно количественных характеристик тестовых заданий. В нашей стране подобные результаты получили название "Теория моделирования и параметризации тестов", сокращенно ТМПТ.

В рамках этой теории ответ участника тестирования на задание трактуется как реализация некоторой случайной величины, чье распределение зависит от многих параметров, в частности от параметров самого задания и параметров самого испытуемого. Основу модели составляет так называемая функция успеха, описывающая вероятность верного выполнения того или иного задания тем или иным участником тестирования в зависимости от параметров этого задания и этого участника тестирования.

В настоящее время разработано довольно много моделей ТПМТ. Эти модели широко используются в медицине, биологии, педагогике ([39], [56]). Разрабатывались критерии, позволяющие судить об адекватности модели реальным данным. Исследовалась адекватность существующих на данный момент моделей реальным данным, сравнивались между собой различные критерии адекватности. Автором исследовалась адекватность модели с частично верными ответами. Эта модель используется в настоящее время для обработки результатов централизованного тестирования и единого государственного экзамена. В результате анализа было установлено, что в целом, модель адекватна реальным данным, но существует небольшое количество заданий, для которых значение статистики, используемой для проверки адекватности, существенно превышает допустимый порог. Причем уровень трудности этих заданий значительно превышал среднюю трудность по тесту, то есть эти задания были очень сложны для выполнения. При детальном изучении этих заданий выяснилось, что причина неадекватности заключается в том, что небольшое количество участников тестирования (5-10 человек) с низким уровнем подготовленности получили за эти задания высокие баллы (или, если речь идет о дихотомических заданиях, верно их выполнили). В силу того, что уровень трудности этих заданий намного выше среднего, можно предположить, что слабо подготовленные участники тестирования получили высокие баллы не решая эти задания, а списывая их. В случае честного решения этих заданий, участники тестирования с низким уровнем подготовленности получили бы за эти задания минимально возможные баллы. После внесения соответствующих изменений в матрицы ответов и пересчета результатов выяснилось, что трудности этих заданий остались практически такими же, какими были до изменений, а мера согласия данных с моделью значительно улучшилась. То есть неадекватность модели была обусловлена несоблюдением правил проведения процедуры тестирования. Более подробно эти результаты изложены в [30].

Однако вопросы, связанные с адекватностью моделей, выходят за рамки данной работы, поэтому в дальнейшем к вопросам адекватности автор возвращаться не будет. Более детально с ними можно ознакомиться, например, в работах [58], [65], [66].

Не существовало функции, дающей характеристику теста в целом. К тому же, недостаточно исследованы численные методы оценивания параметров различных моделей. При конструировании тестов довольно часто используется информационная функция задания (количество информации по Фишеру), однако, совсем неисследованным оказался подход, основанный на весовых функциях задания.

Задача конструирования тестов обычно сводится к задаче линейного программирования. Для некоторых частных случаев были описаны соответствующие им задачи линейного программирования, но не оказалось методики, позволяющей представить задачу конструирования тестов для произвольной спецификации в виде задачи линейного программирования. Все это и определило направление исследований и выбор темы диссертационной работы.

Диссертация состоит из введения, трех глав и приложения.

Похожие диссертационные работы по специальности «Математическое моделирование, численные методы и комплексы программ», 05.13.18 шифр ВАК

Заключение диссертации по теме «Математическое моделирование, численные методы и комплексы программ», Овчинников, Всеволод Валентинович

4 Заключение

Область применения различных моделей тестирования практически неогра-ничена. Различные модели используются в биологии, медицине, педагогике. Но для того, чтобы полноценно использовать все те преимущества, которые дает тестирование по сравнению с остальными формами контроля знаний, необходимо, чтобы результаты тестирования находились на метрической шкале. Тогда тестирование можно будет трактовать как процесс измерения в полном смысле этого слова. Как показано в данной работе, не для всех моделей ТМПТ возможна подобная трактовка. Одной из целей данной работы было выделение класса моделей, позволяющих получать результаты тестирования на метрической шкале. Так как свойства оценок параметров модели зависят не только от вида модели но и от способа их получения, то еще одной целью данной работы стало исследование существующих методов оценивания параметров модели. Также в данной работе было введено понятие характеристической функции теста и получены ее аналитические выражения в случае равномерного и нормального распределения параметров заданий. Был исследован подход к конструированию тестов, основанный на весовых функциях задания. Показано, что в рамках одной из моделей аналитические выражения весовой и информационной функций совпадают. Для облегчения процесса конструирования тестов была разработана и реализована методика, позволяющая конструировать тесты по любой наперед заданной спецификации, рассмотрены вопросы, связанные с конструированием тестов.

На защиту выносятся следующие результаты.

• Формулировка и обоснование критериев, позволяющих судить о способности модели ТМПТ к измерению.

• Анализ при помощи выведенных критериев наиболее распространенных на данный момент моделей ТМПТ.

• Общий вид модели, позволяющей производить измерения в случае, когда каждое тестовое задание и каждый участник тестирования характеризуется ровно одним параметром. Обобщение модели на случай политомических заданий.

• Вывод аналитического выражения характеристической функции теста в случае равномерного и нормального распределения трудностей заданий.

• Доказательство совпадения весовой и информационной функции задания в случае модели с частично верными ответами.

• Методика, позволяющая в терминах линейного программирования сформулировать сколь угодно сложные условия на отбор заданий в тест и

• Комплекс программного обеспечения, позволяющий: обрабатывать результаты тестирования в рамках модели с частично верными ответами, пополнять и сопровождать базу данных тестовых заданий, конструировать тесты, отвечающие определенным, заранее сформулированным, требованиям.

Описанный комплекс программного обеспечения несколько лет успешно используется Федеральным центром тестирования при подготовке и обработке тестов централизованного тестирования и единого государственного экзамена.

Список литературы диссертационного исследования кандидат технических наук Овчинников, Всеволод Валентинович, 2006 год

1. Айвазян С.А. Теория вероятностей и прикладная статистика. М.: ЮНИТИ-ДАНА. 2001. - 656 с.

2. Бахвалов Н.С., Жидков Н.П., Кобельков Г.М. Численные методы. -М.: Лаборатория Базовых Знаний. 2000. 624 с.

3. Березин Н.В., Овчинников В.В. База данных заданий централизованного тестирования. // Вопросы тестирования в образовании. 2001. -Ж. - с. 57-61.

4. Вентцель Е.С. Теория вероятностей. М.: Наука. 19G9. - 675 с.

5. Дейтел Х.М., Дейтел П.Дж. Как программировать на С++. М.: Бином. 2000. - 1024 с.

6. Калиткин H.H. Численные методы. М.: Наука. 1978. - 512 с.

7. Карданова Е.Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования. // Вопросы тестирования в образовании. 2004. - №10. - с. 7-34.

8. Карданова Е.Ю. Математические модели многофасетного анализа. // Вопросы тестирования в образовании. 2004. - №11. - с. 11-38.

9. Карданова Е.Ю., Нейман Ю.М. Основные модели современной теории тестирования. // Вопросы тестирования в образовании. 2003. - №7. -с. 12-37.

10. Карданова Е.Ю., Нейман Ю.М. Проблема выравнивания в современной теории тестирования. // Вопросы тестирования в образовании. -2003. №8. - с. 21-40.

11. Карданова Е.Ю., Нейман Ю.М. Как формально определить понятия 'уровень подготовленности испытуемого' и 'уровень трудности задания теста'. // Вопросы тестирования в образовании. 2004. - №12. - с. 7-17.

12. Кендалл М., Стыоарт А. Статистические выводы и связи. М.: Наука. 1973. - 900 с.

13. Ковалев М.М. Дискретная оптимизация. М.: Едиториал УРСС. 2003.- 192 с.

14. Крамер Г. Математические методы статистики. М.: МИР. 1975. - 648 с.

15. Лесин В.В., Лисовец Ю.П. Основы методов оптимизации. М.: Издательство МАИ. 1998. - 344 с.

16. Линник Ю.В. Метод наименьших квадратов и основы теории обработки наблюдений. М.: Наука. 1962. 650 с.

17. Маркин Н.С. Основы теории обработки результатов измерений. М.: Издательство стандартов. 1991. - 176 с.

18. Нейман Ю.М. Как измерить учебные достижения? // Вопросы тестирования в образовании. 2001. - №1. - с. 40-56.

19. Нейман Ю.М. О шкалировании результатов централизованного тестирования в 2001 году. // Вопросы тестирования в образовании. 2001.- Ж. с. 94-106.

20. Нейман Ю.М. Основные принципы шкалирования результатов ЕГЭ. // Вопросы тестирования в образовании. 2003. - №6. - с. 20-25.

21. Нейман Ю.М., Овчинников В.В. Оценки параметров уровня подготовленности тестируемых и трудности заданий в рамках двухпараметри-ческой модели. // Тезисы докладов второй всероссийской конференции "Развитие системы тестирования в России. 2000. с. 52-53

22. Нейман Ю.М., Овчинников В.В., Хлебников В.А., Характеристическая функция теста. // Вопросы тестирования в образовании. 2003. - №7. - с. 38-54.

23. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М.: Прометей, 2000. - 169 с.

24. Нейман Ю.М., Хлебников В.А. Задача тестирования в терминах классической теории оценивания параметров. // Вопросы тестирования в образовании. 2003. - №8. - с. 46-59.

25. Нейман Ю.М., Хлебников В.А. Как оценивается уровень подготовленности учащихся по результатам единого государственного экзамена. -М.: Шарк-пресс, 2003. 32 с.

26. Овчинников В.В. Оценивание учебных достижений учащихся при проведении централизованного тестирования. М.: Век книги, 2001. - 27 с.

27. Овчинников В.В. Оценка латентных параметров испытуемых. // Тезисы докладов всероссийской конференции "Анализ качества образования и тестирование. 2001. с. 215-223.

28. Овчинников В.В. Двухпараметрическая логистическая бинарная модель. // Тезисы докладов 56-й научно-технической конференции студентов, аспирантов и молодых ученых. 2001. - с. 41-43.

29. Овчинников B.B. Шкалирование результатов централизованного тестирования в 2001 году. // Тезисы докладов третьей всероссийской конференции "Развитие системы тестирования в России". 2001. - с. 106-108.

30. Овчинников В.В. Анализ внутренней валидности тестовых заданий аттестационного тестирования 2002 г. // Тезисы докладов четвертой всероссийской конференции "Развитие системы тестирования в России". 2002. - с. 90-91.

31. Овчинников В.В. О точности результатов ЕГЭ 2004 г. // Тезисы докладов шестой всероссийской конференции "Развитие системы тестирования в России". 2004. - с. 50-52.

32. Овчинников В.В. Математические модели тестирования при наличии заданий политомического типа. // Scientific Papers / Great Novgorod: NovSU. 2005.

33. Pao С.P. Линейные статистические методы и их применения. М.: Наука. 1968. - 548 с.

34. Хлебников В.А., Овчинников В.В. О точности измерения тестового балла. // Вопросы тестирования в образовании. 2002. - №4. - с. 53-62.

35. Яблонский C.B. Введение в дискретную математику. М.: Высшая школа. 2003. - 384 с.

36. Andrich D. Rasch models for measurement. London.: SAGE Publication. 1988. - 88 p.

37. Armstrong R.D., Jones D.H., Wu I.L. An automated test development .of parallel tests from a seed test. // Psychometrika. 1992. - №57. - p. 271-288.

38. Frank B. Baker, Item response theory: parameter estimation techniques. -New York.: Marcel Dekker. 1992. 496 p.

39. Bond T.G., Fox C.M. Applying the Rasch model. Fundamental measuremant in the human sciences. Lawrence Erlbaum Associates, Inc. 2001. - 255 p.

40. Crocker L., Algina J. Introduction to classical and modern test theory. -Orlando.: Harcourt Brace Jovanovich, Inc. 1986. 482 p.

41. Embretson S.E., Reise S.P. Item response theory for psychologistics. -Lawrence Erlbaum Associates, Publishers. 2000. 371 p.

42. Fisher G.H. On the existence and uniqueness of maximum-likelihood estimates in the Rasch model. // Psychometrika. 1981. - №46. - p. 59-77.

43. Fisher G.H. Applying the principles of specific objectivity and generalizability to the measurement of change. // Psychometrika. 1986.- №52. p. 565-587.

44. Huynh Huynh. On equivalence between a partial credit item and a set of independent Rasch binary items. // Psychometrika. 1994. - №59. - p. 111-119.

45. Huynh Huynh. Decomposition of a Rasch partial credit item into independent binary and indecomposable trinary items. // Psychometrika.- 1996. №61. - p. 31-39.

46. Irtel H. An extention of the concept of specific objectivity. // Psychometrika. 1995. - №60. - p. 115-118.

47. Luo G. The relationship between the Rating Scale and Partial Credit models and the implication of disordered thresholds of the Rasch modelsfor polytomous responses. // Journal of Applied Measurement. 2005. -№6(4). - p. 443-455.

48. Lord F.M., Novick M.R. Statistical theories of mental test scores. -MA.:Addison-Wesley. 1967. - 275 p.

49. Geoff N. Masters. A Rasch model for partial credit scoring. // Psychometrika. 1982. - №47. - p. 149-174.

50. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen: Danish Institute for Educational Research. 1960. - 32 p.

51. Rasch G. On specific objectivity: an attempt at formalizing the request for generality and validity of scientific statements. // Danish yearbook of philosophy. 1967. - №14. - p. 58-94.

52. Smith Jr. E.V. Evidence for the reliability of measures and validity of measure interpretation: a Rasch measurement perspective. // Journal of Applied Measurement. 2001. - №2(3). - p. 281-311.

53. Smith R.M. Rasch measurement models: Interpreting Winsteps/Bigsteps and Facets output. Maple Grove, Minnesota.: JAM Press. 1999. - 58 p.

54. Smith R.M. Applications of Rasch Measurement. Chicago.: MESA PRESS. 1992. - 2000 p.

55. Smith R.M. Fit analysis in latent trait measurement models. // Journal of Applied Measurement. 2000. - №1(2). - p. 231-244.

56. Theunissen, T.J.J.M. Binary programming and test design. // Psychometrika.- 1985. №50. - p. 411-420.

57. Theunissen, T.J.J.M. Some applications of optimization algorithms in test design and adaptive testing. // Applied Psychological Measurement. -1986. №10(4). - p. 381-389.

58. Verschoor A.J. IRT test assembly using genetic algorithms. -Arnhem.:CITO Technical Report OIS 8. 2004. 33 p.

59. Wolfe E.W. Equating and item banking with the Rasch model. // Journal of Applied Measurement. 2000. - №1(4). - p. 26-31.

60. Wright B.D. Solving Measurement Problems with the Rasch Model. // Journal of Educational Measurement. 1977. - №14(2). - p. 97-116.

61. Wright B.D., Masters G.N. Rating scale analysis. Chicago.: MESA PRESS. 1982. - 204 p.

62. Wright B.D., Mok M. Rasch model overview. // Journal of Applied Measurement. 2000. - №1(1). - p. 83-106.

63. Wright B.D., Stone M.H. Best Test Design. Chicago.: MESA PRESS. 1979. - 222 p.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.