Разработка и валидизация русскоязычной версии инструмента международного сравнительного исследования навыков учащихся на входе в школу и их прогресса за первый учебный год: проблемы адаптации и локализации тема диссертации и автореферата по ВАК РФ 13.00.01, кандидат наук Иванова Алина Евгеньевна

  • Иванова Алина Евгеньевна
  • кандидат науккандидат наук
  • 2021, ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ13.00.01
  • Количество страниц 135
Иванова Алина Евгеньевна. Разработка и валидизация русскоязычной версии инструмента международного сравнительного исследования навыков учащихся на входе в школу и их прогресса за первый учебный год: проблемы адаптации и локализации: дис. кандидат наук: 13.00.01 - Общая педагогика, история педагогики и образования. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2021. 135 с.

Оглавление диссертации кандидат наук Иванова Алина Евгеньевна

Введение

Актуальность исследования

Степень разработанности проблемы

Цель и задачи исследования

Исследовательские вопросы

Методология и методы

Теоретическая рамка исследования

Результаты исследования

Теоретическая и практическая значимость работы

Положения, выносимые на защиту

Список литературы

Приложение 1. Статья «Иванова А. Е. Проблема сопоставимости результатов в международных сравнительных исследованиях образовательных достижений»

Приложение 2. Статья «Ivanova A., Kardanova E., Merrell C., Tymss P., Hawker D. Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school» Приложение 3. Статья «Иванова А. Е., Карданова-Бирюкова К. С. Создание русскоязычной версии международного инструмента оценивания ранних навыков чтения»

Приложение 4. Статья «Иванова А.Е., Карданова Е.Ю. Изучение возможности проведения межстранового сравнительного исследования навыка чтения учащихся на входе в школу» Приложение 5. Дополнительные материалы к статье Ивановой А. Е., Кардановой Е.Ю. «Изучение возможности проведения межстранового сравнительного исследования навыка чтения учащихся на входе в школу»

Введение

Рекомендованный список диссертаций по специальности «Общая педагогика, история педагогики и образования», 13.00.01 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка и валидизация русскоязычной версии инструмента международного сравнительного исследования навыков учащихся на входе в школу и их прогресса за первый учебный год: проблемы адаптации и локализации»

Актуальность исследования

В исследованиях развития ребенка все большую роль играют крупномасштабные внутри- и межстрановые исследования (МСИ). Современные МСИ позволяют исследователям в числе прочего верифицировать, уточнять и совершенствовать существующие теории развития (Shuttleworth-Edwards et al., 2004; Peña, 2007). МСИ являются важным источником данных о предикторах, определяющих успешность обучения детей в разных странах, условиях, социальных и культурных контекстах (Ainley, & Ainley, 2019; Carnoy et al., 2016; Caro, & Cortés, 2012).

Интерес к МСИ во всем мире подтверждается стремительным ростом их числа с начала 2000-х гг. Например, количество участников (юрисдикций) PISA (Programme for International Student Assessment) выросло с 43 в 2000 до 80 в 2018 (Liu, & Steiner-Khamsi, 2020). Исследователи отмечают, что правительства все большего количества стран стараются следовать логике МСИ применительно к своей внутренней образовательной политике, стремясь добиться фиксированных, прогнозируемых, количественно измеримых результатов (Espeland, 2015; Liu, & Steiner-Khamsi, 2020).

Стоит также отметить особенный интерес исследователей и политиков к

результатам международных исследований в сфере дошкольного и раннего

школьного образования. Этот интерес связан с повышающейся ролью

грамотности в современном обществе в целом (например, согласно целям

устойчивого развития ООН, принятым 193 странами, мировому сообществу

необходимо добиться всеобщего доступа к получению качественного

дошкольного и начального школьного образования (ООН, 2015)), так и с тем,

что именно первые годы обучения критически важны для более позднего

развития, с необходимостью разумного расходования образовательных

ресурсов, а также с желанием исследователей и политиков принимать решения

на доказательной основе, изучив опыт и лучшие практики других стран

(Suggate, 2009). Несмотря на то, что каждая страна разрабатывает и реализует

3

свои собственные образовательные цели и программы, необходимы внешние, международные ориентиры и информирование о других возможностях и перспективах для развития детей младшего школьного возраста (Buzhardt et al., 2019). Примером международного сравнительного исследования, ориентированного на начало обучения в школе, является международный проект iPIPS (international Performance indicators in Primary Schools), предполагающий стартовую диагностику детей на входе в школу и оценку их прогресса за первый год обучения. Инструмент iPIPS может предоставить данные для проведения широкого спектра вторичных исследований, посвященных начальному периоду жизни школьников.

Однако, как и для любого международного сравнительного исследования, сопоставимость данных, получаемых с помощью данного инструмента, должна быть заранее продумана и в дальнейшем доказана, если целью исследования является сравнительная интерпретация баллов и обобщение результатов на различные страны и культуры. Создание и реализация международного сравнительного исследования - это всегда чрезвычайно сложная задача. Инструмент, разработанный в одной культуре для оценки определенного конструкта, на основании определенных ценностей и представлений, не всегда будет эквивалентно измерять тот же конструкт в другой культуре. Это общий методологический вызов всех международных исследований в сфере образования, и поэтому необходимы специальные исследования, доказывающие эквивалентность измерений, получаемых с помощью используемых инструментов. Существует ряд примеров, показывающих наличие проблем с сопоставимостью результатов для отдельных стран и конструктов даже для крупнейших международных исследований (Ercikan, Roth, Asil, 2015; Oliveri, & von Davier, 2011). Однако в случае международного исследования, ориентированного на учащихся начальной школы, более того, находящихся на старте обучения, исследователю приходится сталкиваться с дополнительными сложностями,

связанными с особенностями развития детей, с их возрастом, и всеми стоящими за этим ограничениями.

Реализация международного сравнительного исследования iPIPS потребовала решения ряда проблем, с которыми традиционно сталкиваются международные исследования, а также решения дополнительных проблем, связанных с обеспечением валидности результатов оценивания детей раннего школьного возраста по чтению и по математике в целях международного сопоставления в условиях различного возраста оценивания и частично различающихся инструментов оценивания, созданных в разных странах.

Данная работа описывает процесс разработки и валидизации русскоязычной версии международного инструмента iPIPS, показывает возникшие при этом проблемы проведения адаптации инструмента и их решения. Кроме того, в данной работе обсуждается проведение разведывательного (т.е. проверяющего саму возможность проведения) сопоставительного исследования результатов стартовой диагностики первоклассников и их прогресса за первый год обучения по чтению и математике, полученных с помощью оригинальной английской версии и впервые для проекта iPIPS неанглоязычной версии инструмента.

Степень разработанности проблемы

Международные сравнительные исследования (МСИ) в сфере

образования, такие как, например, Международное исследование качества

чтения и понимания текста (PIRLS), Международное исследование качества

школьного математического и естественнонаучного образования (TIMSS) или

Международная программа по оценке образовательных достижений учащихся

(PISA) производят значительные объемы объективных данных для

исследователей и политиков. Некоторые исследователи убеждены, что МСИ

часто формируют то, как образование понимается, и какую ценность оно

имеет в странах-участницах (Sellar, Lingard, 2014). В России, которая

принимает участие в международных сравнительных образовательных

исследованиях, проводимых Организаций экономического сотрудничества и

5

развития (ОЭСР) и Международной ассоциацией по оценке образовательных достижений (IAE) с 1988 года, результатам МСИ уделяется значительное внимание (Болотов и др., 2013). В нашей стране на протяжении нескольких десятилетий в образовательной политике, в среде исследователей и практиков активно используются данные об образовательных результатах школьников, а также данные, получаемые из контекстных опросников родителей, учителей и директоров школ. Исследователи в сфере образования называют МСИ частью российской системы оценки качества образования страны (Болотов, 2018; Ковалева, 2017).

Крупнейшие МСИ, такие как PIRLS, TIMSS или PISA являются сегодня наиболее показательным примером эффективного проектирования и реализации исследования образовательных достижений на языках разных стран и культур. Но в мире ежегодно проводятся международные сравнительные исследования, вовлекающие не столь большое число стран, ресурсов и внимания СМИ. Это могут быть различные совместные образовательные проекты и инициативы нескольких стран (Ellefson, Zachariou, Ng, Wang, & Hughes, 2020), или образовательных организаций, предполагающие оценивание образовательных достижений учащихся. Даже при проведении внутренних национальных мониторингов могут существовать версии инструментов оценивания на различных языках, отличных от основного государственного языка (Ercikan, Oliveri, & Sandilands, 2013). Или же речь может идти об экзаменах в учебные заведения, которые дают учащимся право выбрать язык, на котором сдавать экзамен (Sears, Othman & Mahoney, 2015). Эти примеры предполагают необходимость сравнения образовательных результатов участников, полученных с помощью культурно или лингвистически различающихся версий инструментов. Однако, независимо от масштаба проводимого международного сравнительного исследования, все они будут сталкиваться со схожими методологическими проблемами и вызовами, и должны ориентироваться на схожие стандарты качества.

Многочисленные научные работы показывают, что международные сравнительные исследования в сфере образования сталкиваются с большим количеством методологических вызовов, связанных с созданием качественного измерительного инструментария и процедурами адаптации для стран-участниц. Эти вызовы объясняются тем, что языковые версии любого международного инструмента оценивания, предполагающего проведение сравнений в разрезе различных стран и культур, неизбежно содержат в себе посторонний по отношению к искомому конструкту культурно-обусловленный компонент (Braun, 2013).

Если методологические проблемы сравнительных исследований не решены, значительно возрастает вероятность ошибок в выводах из результатов таких исследований. К примеру, выявленные в ходе исследования различия в результатах образовательного тестирования учащихся из разных стран могут быть обусловлены артефактом измерения, а не действительной разницей в результатах участников (Allalouf,1999; Sears, Othman & Mahoney, 2015).

Несмотря на существование международных стандартов, содержащих рекомендации по проведению международных сравнительных исследований, даже строгое соблюдение всех правил и процедур адаптации инструментов на языки стран-участниц не гарантирует, что в итоге проведенного международного исследования результаты всех стран окажутся сопоставимы (Laschke, Blömeke, 2016; Grisay et al., 2009; Stubbe, 2011). Таким образом, фундаментальной проблемой международных сравнительных исследований является обеспечение сопоставимости результатов оценивания (Rutkowski et al., 2010).

Отдельный исследовательский интерес и, одновременно,

методологический вызов представляют собой международные сравнительные

исследования образовательных достижений детей в начальный период

обучения в школе. Помимо обозначенных выше вызовов, с которыми

сталкиваются все международные исследования, МСИ, ориентированные на

7

детей младшего школьного возраста, должны учитывать возрастные особенности развития детей, которые значительно ограничивают существующие возможности оценки. Большинство детей дошкольного и раннего школьного возраста не умеют читать, имеют ограниченный словарный запас, не могут долгое время фокусироваться на выполнении конкретной задачи, не всегда обладают достаточной психологической зрелостью, чтобы участвовать в тестировании (Castro, Swauger, Harger, 2017; McClelland et al., 2007; Merrell, Tymms, 2016; Weigel, Martin, & Lowman 2007).

Если обратиться к международному опыту, можно выделить ряд известных исследований, ориентированных на непрямую (через опрос родителей или педагогов, через наблюдение за поведением ребенка в среде обучения и пр.) оценку развития ребенка на входе в школу. Так, разработанный в Канаде и сегодня применяемый в ряде других стран Early Development Instrument (EDI) оценивает физическую, социальную, эмоциональную, коммуникационную и когнитивно-языковую сферы развития детей в форме опроса педагогов детсадов в год перед школой (Janus et al, 2007). Во многих странах, включая Россию (Юдина, 2015; Ivanova, Vinogradova, 2018), используются инструменты оценки образовательной среды в дошкольном учреждении Early Childhood Environment Rating Scales (ECERS) и School-age Care Environment Rating Scales (SACERS). Эти инструменты предполагают метод наблюдения и структурированное экспертное оценивание пространства, в котором находится ребенок (Harms, Clifford, Cryer, 2015; Harms, 2013).

Реализовать международное сравнительное исследование навыков детей

на входе в школу, основанное на прямом оценивании детей (т.е.

индивидуально работать с ребенком и фиксировать, как дети демонстрируют,

что они знают и умеют делать), - чрезвычайно трудно. Тем не менее, попытки

проведения таких исследований предпринимаются, хотя число принимающих

в них участие стран пока невелико. Примером такого исследования является,

например, недавно запущенное исследование ОЭСР «Study on Early Learning

8

and Child Well-being», в котором приняли участие три страны -Великобритания, США и Эстония. (OECD, 2018). Проект ориентирован на детей в возрасте 5-6 лет, получающих образование в школах или детских садах. Среди прочего, исследование предполагает прямую оценку словарного запаса и фонематической грамотности детей, а также базовых математических навыков. Тем не менее, такой важный компонент базовых навыков ребенка как ранее чтение в этом исследовании не оценивается. Кроме того, также, как и все упомянутые выше исследования, данный проект предполагает срезовый сбор данных. Еще одним примером исследования, ориентированного на начало обучения в школе, является международный проект iPIPS (international Performance indicators in Primary Schools), предполагающий стартовую диагностику детей на входе в школу и оценку их индивидуального прогресса за первый год обучения. Инструмент предполагает среди прочего оценку ранних навыков детей по чтению и математике. Возможность измерения прогресса детей, а значит, потенциал изучения динамики развития детей в межстрановой перспективе является уникальной особенностью данного международного исследования.

Цель и задачи исследования

Участие в исследовании iPIPS требует от исследователей из присоединившихся к нему стран решения ряда методологических проблем, несвойственных типичным МСИ, связанных с возрастом участников и возможностью оценивать их прогресс. Несмотря на то, что инструмент iPIPS широко применяется в ряде стран помимо Великобритании, включая Австралию, Новую Зеландию, Бразилию, Германию, Южную Африку (Archer et al., 2010; Bartholo et al., 2019; Howie et al., 2016; Tymms et al., 2014; Vidmar et al., 2017), исследований, посвященных проблемам обеспечения качества международных сравнительных исследований на его данных, крайне мало.

В частности, было проведено и опубликовано исследование для сравнения результатов детей на международном уровне в англоязычных

странах — Великобритании, Австралии и Новой Зеландии (Tymms et al., 2014).

9

Авторами были кратко описаны процедуры адаптации инструмента iPIPS для использования в Австралии и Новой Зеландии. В статье описаны сделанные минимально необходимые изменения инструмента, связанные с изменением графических материалов (например, мельница в Англии и Австралии выглядят по-разному), некоторых звуковых файлов (для части заданий, которые не рассматриваются в данной диссертации и посвящены фонематической грамотности). В исследовании (Howie et al., 2016) кратко приводятся процедуры перевода iPIPS на несколько языков ЮАР, а также приводятся результаты анализа справедливости функционирования заданий созданных для страны версий. В исследовании (Vidmar et al., 2017) сравниваются результаты первоклассников в чтении на базе инструмента iPIPS для Сербии и Германии. Однако в данной статье даются только средние оценки по выборке, при этом никаких доказательств валидности результатов сравнения или процедур обеспечения сопоставимости языковых версий не приводится.

Таким образом, исследований, в которых с помощью доказано адаптированных версий инструмента iPIPS сопоставлялись бы результаты оценивания первоклассников из разных стран, включая неанглоязычные, до настоящего времени не опубликовано.

Цель данной работы - разработать и валидизировать русскоязычную версию международного сравнительного инструмента оценивания навыков учащихся на входе в школу и их прогресса в чтении и математике, а также разработать механизм обеспечения сопоставимости результатов как минимум двух языковых версий такого инструмента.

Используемая терминология. Адаптация какого-либо инструмента

оценивания необходима в том случае, если создаваемый инструмент будет

использоваться, по крайней мере, в двух версиях, которые существенно

отличаются друг от друга в терминах языка и/или культуры. Адаптация

инструмента предполагает его трансфер на язык другой культуры и

минимально необходимое изменение инструмента, связанное с особенностями

языка, содержания и употребления терминологии, а также принятие

10

взвешенного решения о том, что итоговая версия инструмента на другом языке и/или в другой культуре отражает измерение того же конструкта, что и оригинальная версия (Hambleton and Patsula, 1999; ITC, 2016). Адаптированная версия, неизбежно будет несколько отличаться от оригинальной в терминах языка и культуры. Важно, чтобы эти отличия были минимальны, и при этом сохранялось эквивалентность измерений, которую можно обосновать через: 1) эквивалентность конструкта; 2) эквивалентность инструмента; 3) эквивалентность процедуры (Ercikan, 2013).

В данной работе также предлагается ввести понятие локализация инструмента. Понятия адаптации и локализации отражают один процесс -создание и изменение инструмента оценивания для применения в другой культурной или языковой среде. Однако, они рассматривают этот процесс с точки зрения различных вариантов использования и интерпретации итоговых результатов оценивания с помощью данного инструмента.

Локализация - это термин, используемый в различных областях социальных наук, который отражает процесс преобразования некоторого продукта таким образом, чтобы в нем учитывалась культурная и языковая специфика целевой аудитории (страны, региона и т.д.), где он будет использоваться (Esselink, 2000). Представляется разумным ввести данное понятие в сферу международных сравнительных исследований для тех случаев, когда даже строгое следование процедурам адаптации в соответствии с международными стандартами и руководствами не позволит достичь полной эквивалентности измерений. Тогда локализация может быть определена как процесс создания инструмента измерения на языке другой культуры, в основе которого лежит та же теоретическая модель, что и в оригинальной версии, но более полно учтены культурные особенности страны локализации. При этом, для локализации фиксируется невозможность достижения эквивалентности измерений, а значит, становится невозможным проведение прямого сравнения результатов оценивания с помощью различных версий инструмента на индивидуальном уровне.

Дизайн исследования предполагает решение нескольких задач:

• Во-первых, в рамках диссертационного исследования проводится общий анализ существующих проблем и подходов к их решению при проведении международных сравнительных исследований образовательных достижений

• Во-вторых, анализируются особенности адаптации инструмента международного сравнительного исследования стартовой диагностики детей на входе в школу и оценки их прогресса за первый год обучения на примере разработки математической части инструмента iPIPS; проводится комплекс валидизационных исследований русскоязычной версии; предлагается подход к обеспечению сопоставимости русскоязычной и оригинальной версии инструмента на индивидуальном уровне;

•В третьих, анализируются особенности локализации инструмента международного сравнительного исследования стартовой диагностики детей на входе в школу и оценки их прогресса за первый год обучения на примере разработки части инструмента iPIPS по чтению, посвящен; проводится комплекс валидизационных исследований русскоязычной версии инструмента; а также предлагается подход к обеспечению возможности сопоставления результатов использования русскоязычной и оригинальной версии инструмента на групповом уровне.

Исследовательские вопросы

В типичной ситуации, при проведении срезового МСИ,

ориентированного на учащихся (взрослых), умеющих читать, сопоставимость

оценок для международного сравнения обеспечивается с помощью

специально разработанных процедур адаптации инструментов оценивания на

языки стран и культур, принимающих участие в МСИ. Научно-

исследовательские организации в сфере оценивания предлагают различные

руководства и рекомендации, призванные обеспечить качество адаптации при

проведении МСИ (AERA, APA, NCME; ITC). Ведущие исследователи также

предлагают свои решения по узкоспециальным проблемам МСИ, например,

контролю качества перевода (Sperber, Devellis, Boehlecke, 1994) или мерам

12

обеспечения единообразия и согласованности механизмов администрирования исследования на местах (Jowell, 2007) или методы эмпирического анализа сопоставимости полученных результатов (Oliveri, 2012).

И все же, как показывают многочисленные исследования, даже эти меры не являются гарантом обеспечения сопоставимости данных (Laschke, Blömeke, 2016; Grisay et al., 2009, Stubbe, 2011). Необходимы специальные исследования, доказывающие, что в ходе создания национальных версий международного исследования появились инструменты оценивания, производящие действительно сравнимые результаты. В случае же с таким исследованием как iPIPS требуются дополнительные усилия в процессах адаптации, валидизации и обеспечения сравнимости результатов стран-участниц, полученных на выборках детей, только начинающих формальное школьное обучение.

Принимая во внимание все вышесказанное, мы можем предположить, что данное исследование позволит ответить на следующие исследовательские вопросы:

1. Какие вызовы существуют в проведении международных сравнительных исследований навыков учащихся в начале обучения в школе?

Результаты отображены в статье:

Иванова, А. Е. (2018). Проблема сопоставимости результатов в международных сравнительных исследованиях образовательных достижений1. Отечественная и зарубежная педагогика, 1(2 (48)), 68-81.

Авторский вклад: все работы по статье

2. Как обеспечить валидность использования и интерпретации результатов оценивания, полученных с помощью инструментов МСИ?

Результаты отображены в статьях:

Ivanova, A., Kardanova, E., Merrell, C., Tymms, P., & Hawker, D. (2018). Checking the possibility of equating a mathematics assessment between Russia,

Scotland and England for children starting school. Assessment in Education: Principles, Policy & Practice, 25(2), 141-159.

Авторский вклад: написание введения и заключения, подготовка части приложения, обзор литературы по теме статьи, анализ данных.

Иванова А. Е., Карданова-Бирюкова К. С. (2019). Создание русскоязычной версии международного инструмента оценивания ранних навыков чтения. Вопросы образования, (4), 93-115.

Авторский вклад: постановка проблемы, анализ эмпирических данных, написание введения и заключения.

3. Как выстроить работу с первичными результатами тестирования в рамках МСИ, чтобы в дальнейшем использовать их для проведения научных исследований?

o Каким образом обеспечить и проверить международную сопоставимость результатов оценки навыков учащихся в начале обучения в школе и их прогресса по математике?

Результаты отображены в статье:

Ivanova, A., Kardanova, E., Merrell, C., Tymms, P., & Hawker, D. (2018). Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school. Assessment in Education: Principles, Policy & Practice, 25(2), 141-159.

o Каким образом обеспечить и проверить международную сопоставимость результатов оценки навыков учащихся в начале обучения в школе и их прогресса по чтению?

Результаты отображены в статье:

Иванова, А. Е., & Карданова, Е. Ю. (2020). Изучение возможности проведения межстранового сравнительного исследования навыка чтения у учащихся на входе в школу. Вопросы образования, (4), 8-36.

Авторский вклад: обзор литературы, анализ эмпирических данных, написание введения и заключения

Методология и методы

Инструмент. Инструмент iPIPS, первоначально созданный в Великобритании (Tymms, 1999), сегодня активно используется в разных странах, в частности, в Австралии, Новой Зеландии, Германии, ЮАР и ряде других (Archer et al., 2010; Niklas, & Schneider, 2013; Wildy, & Styles, 2008). Оценивание детей проводится в формате компьютерного адаптивного тестирования и предполагает прямое взаимодействие ребенка с заданиями с помощью специально обученного асессора (интервьюера). Оценивание iPIPS проводится в два этапа - когда дети только приходят в школу, и когда заканчивают свой первый год обучения, что позволяет оценить их стартовый уровень и прогресс в обучении. Инструмент оценивает развитие ребенка в четырёх сферах - словарного запаса, фонематической грамотности, раннего чтения и математики. В данной работе рассматривается проблемное поле в проведении адаптации части инструмента iPIPS по математике и локализации части инструмента iPIPS по чтению.

Выборка исследования. Для решения задач эмпирической части исследования использованы данные международного сравнительного исследования стартовой диагностики детей на входе в школу и оценки их прогресса (iPIPS) для двух стран Великобритании и России.

В частности, в исследовании использованы российские данные, собранные в ходе апробационного исследования iPIPS в г. Великий Новгород в 2013 г., на репрезентативной стратифицированной рандомизированной выборке 310 учеников первых классов, данные репрезентативной стратифицированной рандомизированной выборки около 1489 первоклассников г. Красноярск за 2014 г. и данные 1289 первоклассников в г. Казань за 2016 г., а также данные широкомасштабного тестирования iPIPS в 2017 г., собранные на выборке порядка 5000 (также репрезентативной стратифицированной рандомизированной) первоклассников Республики

Татарстан1. Выборка учащихся из Великобритании представлена данными широкомасштабного тестирования в Англии и в Шотландии (около 16000 учеников) в 2012 и 2013 годах.

Теоретическая рамка исследования

Данное исследование опирается на достижения теории валидности, представленной моделью Майкла Кейна (Kane, 1992, 2006, 2013).

В современной практике измерений в сфере образования концепция валидности является фундаментальным понятием для разработки и использования инструментов оценивания. В течение последних 15 лет исследователи (в частности, в США и Канаде) концептуализировали валидность как единое понятие, а не определенный набор валидностей как характеристик тестов, включавших ранее, например, очевидную, содержательную, критериальную и другие виды валидности. Одни из самых авторитетных в настоящий момент стандартов в сфере тестирования, а именно объединенные стандарты Американской ассоциации исследований в образовании, Американской психологической ассоциации и Национального совета по измерениям в образовании (AERA, APA, NCME, 2014) определяют валидность как степень, с которой собранные свидетельства и теория поддерживают конкретную интерпретацию тестовых баллов для данного теста. Стандарты дают указание на то, какие это свидетельства - содержание, процесс выполнения теста (включая получение ответов респондентов на задания теста), внутренняя структура теста, отношения с другими переменными и последствия использования результатов тестирования.

Похожие диссертационные работы по специальности «Общая педагогика, история педагогики и образования», 13.00.01 шифр ВАК

Список литературы диссертационного исследования кандидат наук Иванова Алина Евгеньевна, 2021 год

Список литературы

1. Болотов, В. А., Вальдман, И. А., Ковалёва, Г. С., & Пинская, М. А. (2013). Российская система оценки качества образования: главные уроки. Качество образования в Евразии, 1(1), 85-121.

2. Болотов, В. А. (2018). Прошлое, настоящее и возможное будущее российской системы оценки качества образования. Вопросы образования, (3), 287-297.

3. Иванова, А. Е., Кузнецова, М. И., Семенов, С. В., & Федорова, Т. Т. (2016). Факторы, определяющие готовность первоклассников к школе: выявление региональных особенностей. Вопросы образования, (4), 84105.

4. Иванова А. Е. (2018). Проблема сопоставимости результатов в международных сравнительных исследованиях образовательных достижений. Отечественная и зарубежная педагогика, 1(2), 68-81.

5. Иванова А. Е., Карданова-Бирюкова К. С. (2019). Создание русскоязычной версии международного инструмента оценивания ранних навыков чтения. Вопросы образования, (4), 93-115.

6. Иванова А. Е., Карданова Е.Ю. (2020). Изучение возможности проведения межстранового сравнительного исследования навыка чтения учащихся на входе в школу. Вопросы образования, (4), 8-36.

7. Ковалева, Г. С. (2017). Финансовая грамотность как составляющая функциональной грамотности: международный контекст. Отечественная и зарубежная педагогика, 1(2 (37)), 31-43.

8. ООН. 2015. Повестки дня в области устойчивого развития на период до 2030 года. [Электронный ресурс] URL: https://www.un.org/ga/search/view_doc.asp?symbol=A/RES/70/1&Lang=R (дата обращения: 08.05.2018).

9. Региональный отчет. Стартовая диагностика учащихся на входе в школу: Республика Татарстан. 2017. [Электронный ресурс] URL: http: //rcmko. ru/meropriyatiya/monitoringi/ipips/startovaya-diagnostika-uchashhihsya-na-vhode-v-shkolu-respublika-tatarstan/ (дата обращения: 15.01.2021).

10.Юдина, Е. Г. (2015). Шкалы ECERS как метод оценки качества и развития российской системы дошкольного образования. Современное дошкольное образование. Теория и практика, 7 (59), 22-26.

11.AERA, APA, NCME. Standards for educational and psychological testing. -Amer Educational Research Assn, 2014.

12.Ainley, M., & Ainley, J. (2019). Non-Cognitive Attributes: Measurement and Meaning. In: Suter, L.E., et al. (Eds.). (pp.103-125). The SAGE Handbook of Comparative Studies in Education. SAGE Publications Limited.

13.Allalouf, A., Hambleton, R. K., & Sireci, S. G. (1999). Identifying the causes of DIF in translated verbal items. Journal of educational measurement, 36(3), 185-198.

14.Archer, E., Scherman, V., Coe, R., & Howie, S. J. (2010). Finding the best fit: the adaptation and translation of the Performance Indicators for Primary Schools for the South African context. Perspectives in Education, 28(1), 7788.

15.Bartholo, T. L., Koslinski, M. C., Costa, M. D., & Barcellos, T. (2020). What do children know upon entry to pre-school in Rio de Janeiro?. Ensaio: Avalia?ao e Políticas Públicas em Educa?ao, 28(107), 292-313.

16.Braun, H. (2013). Prospects for the future: A framework and discussion of directions for the next generation of international large-scale assessments. In The role of international large-scale assessments: Perspectives from

technology, economy, and educational research (pp. 149-160). Springer, Dordrecht.

17.Carnoy, M., Khavenson, T., Loyalka, P., Schmidt, W. H., & Zakharov, A. (2016). Revisiting the relationship between international assessment outcomes and educational production: Evidence from a longitudinal PISA-TIMSS sample. American Educational Research Journal, 53(4), 1054-1085.

18.Caro, D. H., & Cortés, D. (2012). Measuring family socioeconomic status: An illustration using data from PIRLS 2006. IERI Monograph Series Issues and Methodologies in Large-Scale Assessments, 5, 9-33.

19.Cook, D. A., Brydges, R., Ginsburg, S., & Hatala, R. (2015). A contemporary approach to validity arguments: a practical guide to Kane's framework. Medical education, 49(6), 560-575.

20.Ellefson, M. R., Zachariou, A., Ng, F. F. Y., Wang, Q., & Hughes, C. (2020). Do executive functions mediate the link between socioeconomic status and numeracy skills? A cross-site comparison of Hong Kong and the United Kingdom. Journal of Experimental Child Psychology, 194, 104734.

21.Ercikan, K., Lyons-Thomas, J. (2013). Adapting Tests for Use in Other languages and Cultures, in: K.F. Geisinger (Ed) APA Handbook of Testing and Assessment in Psychology. Vol. Three: (Washington, American Psychological Association).

22.Ercikan, K., Oliveri, M. E., & Sandilands, D. (2013). Large-scale assessments of achievement in Canada. International guide to student achievement, 456459.

23.Ercikan, K., Roth, W. M., & Asil, M. (2015). Cautions about Inferences from International Assessments: The Case of PISA 2009. Teachers College Record, 117(1), n1.

24.Esselink B. (2000). A Practical Guide to Localization. Vol. 4. Amsterdam, Philadelphia: John Benjamins.

25.Grisay, A., Gonzalez, E., & Monseur, C. (2009). Equivalence of item difficulties across national versions of the PIRLS and PISA reading assessments. In M. von Davier & D. Hastedt (Eds.), IERI monograph series: Issues and methodologies in large scale assessments, Vol. 2

26.Hambleton, R. K. (2002). Adapting achievement tests into multiple languages for international assessments. Methodological advances in cross-national surveys of educational achievement, 58-79.

27.Hambleton, R. K., & Patsula, L. (1999). Increasing the validity of adapted tests: Myths to be avoided and guidelines for improving test adaptation practices. Journal of Applied Testing Technology, 1(1), 1-13.

28.Harms, T., Clifford, R. M., & Cryer, D. (2014). Early childhood environment rating scale. Teachers College Press.

29.Howie, S., Combrinck, C., Tymms, P. & Merrell, C. (2016). What children know and can do when they start school in the Western Cape. [Электронный ресурс] URL: https://docs.google.com/a/ipips.org/viewer?a=v&pid=sites&srcid=aXBpcH Mub3JnfGlwaXBzfGd4OjZmNGE5YjIwMDNkODliOTk (дата обращения: 21.01.2021).

30.International Test Commission (2017). International Guidelines for Test Use. Int. J. Test, 1(2), 93-114.

31. Ivanova A., Kardanova E., Merrell C., Tymss P., Hawker D. (2018). Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school. Assessment in Education: Principles, Policy and Practice, 2(25), 141-159.

32.Ivanova, E. V., & Vinogradova, I. A. (2018). Scales SACERS: Results of the Study of the Educational Environment of Moscow Schools. European Journal of Contemporary Education, 7(3), 498-510.

33.Janus, M., & Offord, D. R. (2007). Development and psychometric properties of the Early Development Instrument (EDI): A measure of children's school readiness. Canadian Journal of Behavioural Science/Revue canadienne des sciences du comportement, 39(1), 1.

34.Jowell R. et al. Measuring attitudes cross-nationally: Lessons from the European Social Survey. - Sage, 2007.

35.Kane, M. (2006). Content-related validity evidence in test development. Handbook of test development, 1, 131-153.

36.Kane, M. (2013). Validity and fairness in the testing of individuals. Validity and Test Use: An International Dialogue on Educational Assessment, Accountability and Equity, Emerald Group Publishing, Bingley, 17-53.

37.Kane, M. T. (1992). An argument-based approach to validity. Psychological bulletin, 112(3), 527.

38.Kastberg, D., Roey, S., Lemanski, N., Chan, J. Y., & Murray, G. (2014). Technical report and user guide for the Program for International Student Assessment (PISA). NCES 2014-025.

39.Kautz, T., Heckman, J. J., Diris, R., Ter Weel, B., & Borghans, L. (2014). Fostering and measuring skills: Improving cognitive and non-cognitive skills to promote lifetime success. №. w20749.

40.Laschke, C., & Blomeke, S. (2016). Measurement of job motivation in TEDS-M: Testing for invariance across countries and cultures. Large-scale Assessments in Education, 4(1), 1-17.

41.Mullis, I. V., & Martin, M. O. (2019). PIRLS 2021 Assessment Frameworks. International Association for the Evaluation of Educational Achievement. Herengracht 487, Amsterdam, 1017 BT, The Netherlands.

42.Niklas, F., & Schneider, W. (2013). Home literacy environment and the beginning of reading and spelling. Contemporary Educational Psychology, 38(1), 40-50.

43.OECD (2018). International Early Learning and Child Well-being Study. [Электронный ресурс] URL:

http://www.oecd.org/education/school/international-early-learning-and-child-well-being-study.htm (дата обращения: 01.08.2019).

44.Oliveri, M. E., Olson, B. F., Ercikan, K., & Zumbo, B. D. (2012). Methodologies for investigating item-and test-level measurement equivalence in international large-scale assessments. International Journal of Testing, 12(3), 203-223.

45.Oliveri, M. E., & von Davier, M. (2011). Investigation of model fit and score scale comparability in international assessments. Psychological Test and Assessment Modeling, 53(3), 315-333.

46.Oliveri, M. E., & von Davier, M. (2014). Toward increasing fairness in score scale calibrations employed in international large-scale assessments. International Journal of Testing, 14(1), 1-21.

47.Oliveri, M. E., Ercikan, K., & Zumbo, B. (2013). Analysis of sources of latent class differential item functioning in international assessments. International Journal of Testing, 13(3), 272-293.

48.Pena, E. D. (2007). Lost in translation: Methodological considerations in cross-cultural research. Child development, 78(4), 1255-1264.

49.Rasch, G. (1966). An item analysis which takes individual differences into account. British journal of mathematical and statistical psychology, 19(1), 4957.

50.Rutkowski, L., Gonzalez, E., Joncas, M., & von Davier, M. (2010). International large-scale assessment data: Issues in secondary analysis and reporting. Educational Researcher, 39(2), 142-151.

51.Sears, N. A., Othman, M., & Mahoney, K. (2015). Examining the relationships between NCLEX-RN performance and nursing student factors, including undergraduate nursing program performance: A systematic review. Journal of Nursing Education and Practice, 5(11), 10-15.

52.Sellar, S., & Lingard, B. (2014). The OECD and the expansion of PISA: New global modes of governance in education. British Educational Research Journal, 40(6), 917-936.

53.Shuttleworth-Edwards, A. B., Kemp, R. D., Rust, A. L., Muirhead, J. G., Hartman, N. P., & Radloff, S. E. (2004). Cross-cultural effects on IQ test performance: A review and preliminary normative indications on WAIS-III test performance. Journal of clinical and experimental neuropsychology, 26(7), 903-920.

54.Sperber, A. D., Devellis, R. F., & Boehlecke, B. (1994). Cross-cultural translation: methodology and validation. Journal of cross-cultural psychology, 25(4), 501-524.

55.Steiner-Khamsi G., Waldow F. (ed.). World yearbook of education 2012: Policy borrowing and lending in education. Routledge, 2012.

56.Stubbe, T. C. (2011). How do different versions of a test instrument function in a single language? A DIF analysis of the PIRLS 2006 German assessments. Educational Research and Evaluation, 17(6), 465-481.

57.Turner, R., & Adams, R. J. (2007). The programme for international student assessment: An overview. Journal of Applied Measurement, 8(3), 237-248.

58.Tymms, P. (1999). Baseline assessment, value-added and the prediction of reading. Journal of Research in Reading, 22(1), 27-36.

59.Tymms, P. (2013). Baseline assessment and monitoring in primary schools. David Fulton Publishers.

60.Tymms, P., Jones, P., Albone, S., & Henderson, B. (2009). The first seven years at school. Educational Assessment, Evaluation and Accountability (formerly: Journal of Personnel Evaluation in Education), 21(1), 67-80.

61.Tymms P., Merrell C., Hawker D., Nicholson F. (2014) Performance Indicators in Primary Schools: A Comparison of Performance on Entry to School and the Progress Made in the First Year in England and Four Other Jurisdictions. [Электронный ресурс] URL: http://dro.dur.ac.uk/23562/1/23562.pdf (дата обращения: 20.01.2021).

62.Vidmar, M., Niklas, F., Schneider, W., & Hasselhorn, M. (2017). On-entry assessment of school competencies and academic achievement: a comparison between Slovenia and Germany. European journal of psychology of education, 32(2), 311-331.

63.Wildy, H., & Styles, I. (2008). Measuring what students entering school know and can do: PIPS Australia 2006-2007. Australian Journal of Early Childhood, 33(4), 43-52.

64.Wolfe, Edward W. (2004). Equating and Item Banking with the Rasch Model. In E.V.Smith, R.M.Smith (Eds.), Introduction to Rasch measurement (pp.366390). Maple Grove, MN: JAM Press.

Приложение 1

Иванова, А. Е. (2018). Проблема сопоставимости результатов в международных сравнительных исследованиях образовательных достижений1. Отечественная и зарубежная педагогика, 1(2 (48)), 68-81.

Международные сравнительные исследования образовательных достижений становятся движущей силой происходящих перемен в системе образования во многих странах, включая Россию. Крупнейшие международные исследования во многом служат примером эффективного проектирования и реализации изучения образовательных достижений в глобальном масштабе. Но сегодня все чаще проводятся и небольшие межстрановые исследования, предполагающие сравнение образовательных результатов, полученных с помощью различных языковых версий инструмента. Тем не менее, независимо от масштаба, ресурсов и числа вовлеченных участников исследования, предполагающие проведение сравнений, требуют убедительных доказательств высокого качества каждого этапа своего жизненного цикла - от разработки инструментов до интерпретации полученных данных. В современной практике известны примеры, когда исследователям не удавалось обеспечить сопоставимость измерений, а значит, сравнение результатов оценивания оказывалось невозможным. Целью данной статьи является знакомство с международным опытом применения стратегий и методов обеспечения сопоставимости результатов сравнительных исследований. В работе рассмотрены основные проблемы и вызовы, с которыми сталкиваются организаторы международных сравнительных исследований, приведены процедуры оценки возможных угроз, а также предложены выработанные международным сообществом механизмы обеспечения сопоставимости данных подобных исследований. Только в случае строгого следования процедурам обеспечения качества международного исследования сделанные на его основе выводы, сравнения и интерпретации могут быть признаны надежными и справедливыми.

ПЕДАГОГИЧЕСКАЯ КОМПАРАТИВИСТИКА

УДК 37.01

А.Е.Иванова

Младший научный сотрудник, Институт образования, Национальный исследовательский университет «Высшая школа экономики», г. Москва E-mail: aeivanova@hse.ru

Alina E. Ivanova

Junior Researcher, Institute of Education, National Research University Higher School of Economics, Moscow, Russia

ПРОБЛЕМА СОПОСТАВИМОСТИ РЕЗУЛЬТАТОВ В МЕЖДУНАРОДНЫХ СРАВНИТЕЛЬНЫХ ИССЛЕДОВАНИЯХ ОБРАЗОВАТЕЛЬНЫХ ДОСТИЖЕНИЙ

Международные сравнительные исследования образовательных достижений становятся движущей силой происходящих перемен в системе образования во многих странах, включая Россию. Крупнейшие международные исследования во многом служат примером эффективного проектирования и реализации изучения образовательных достижений в глобальном масштабе. Но сегодня все чаще проводятся и небольшие межстрановые исследования, предполагающие сравнение образовательных результатов, полученных с помощью различных языковых версий инструмента. Тем не менее, независимо от масштаба, ресурсов и числа вовлеченных участников, любые исследования, предполагающие проведение сравнений, требуют убедительных доказательств высокого качества каждого этапа своего жизненного цикла — от разработки инструментов до интерпретации полученных данных. В современной практике известны примеры, когда исследователям не удавалось обеспечить сопоставимость измерений, а значит, сравнение результатов оценивания оказывалось невозможным. Целью данной статьи является знакомство с международным опытом применения стратегий и методов обеспечения сопоставимости результатов сравнительных исследований. В работе рассмотрены основные проблемы и вызовы, с которыми сталкиваются организаторы международных сравнительных

Как цитировать статью: Иванова А. Е. Проблема сопоставимости результатов в международных сравнительных исследованиях образовательных достижений // Отечественная и зарубежная педагогика. 2018. Т. 1, № 2(48). С.68-81.

исследований, приведены процедуры оценки возможных угроз, а также предложены выработанные международным сообществом механизмы обеспечения сопоставимости данных подобных исследований. Только в случае строгого следования процедурам обеспечения качества международного исследования сделанные на его основе выводы, сравнения и интерпретации могут быть признаны надежными и справедливыми.

Ключевые слова: международные сравнительные исследования, адаптация, оценивание, сопоставимость, эквивалентность результатов, сравнения.

Международные исследования как глобальный феномен

Международные широкомасштабные сравнительные исследования (МСИ) в сфере образования, такие как, например, Международное исследование качества чтения и понимания текста (PIRLS), Международная программа по оценке образовательных достижений учащихся (PISA) или Программа международной оценки компетенций взрослых (PIAAC), производят значительные объемы объективных данных для исследователей и политиков. Сегодня МСИ до некоторой степени формируют то, как образование понимается и какую ценность оно имеет в странах-участницах [25].

Россия принимает участие в международных сравнительных образовательных исследованиях, проводимых Организацией экономического сотрудничества и развития (ОЭСР) и Международной ассоциацией по оценке образовательных достижений (IAE), с 1988 года [1]. В нашей стране успешно используются данные об образовательных результатах школьников, а также данные, получаемые из контекстных опросников родителей, учителей и директоров школ [2]. Эти обширные данные позволяют изучать эффекты различных факторов на образовательные результаты, оценивать взаимосвязи этих факторов и глубже понимать механизмы, лежащие в основе образовательных систем. Мы можем получить представление о содержании образовательных программ, системе институтов образования, структуре систем оценки образовательных результатов, квалификации педагогов и многом другом. И что наиболее важно, мы можем получить представление об уровне компетентности учащихся в той или иной области, о том, что они знают, как они могут это применять, и что они об этом думают,— на международном уровне.

На сегодняшний день в мировой практике накоплено немало примеров, когда международные сравнительные исследования стимулировали

происходящие в стране трансформации системы образования [9; 20]. Наиболее показательным является, пожалуй, пример Германии, где результаты PISA 2000 стали шокирующей новостью для образовательного сообщества,— по усредненному рейтингу страна оказалась на 20-м месте среди 32 стран ОЭСР. После волны критики, разразившейся в Германии относительно выводов и методов PISA, последовали образовательные реформы, которые привели к новой концептуализации всей школьной системы: от иного качества контрольно-измерительных инструментов и введения внутренних мониторингов в школах до изменения системы профессиональной подготовки учителей. Традиционные идеалы образования были переосмыслены, в стране стали больше ориентироваться на конкретные образовательные результаты [20].

Другой известный пример — Дания, которая демонстрировала результаты ниже среднего по ОЭСР в циклах PISA 2000, 2003, 2006 годов. Долгая общественная дискуссия внутри страны привела в конечном итоге к инициированию реформы общего обязательного образования: изменениям в содержании преподавания, особенно предметов естественнонаучного цикла, введению национального тестирования в компьютерной форме. Как отмечают исследователи внутри страны, важным эффектом недовольства Дании своим местом в международных сравнениях стало, как и в Германии, признание необходимости перемен [9].

Приведенные выше примеры показывают, насколько серьезно страны относятся к результатам МСИ. Обобщенная форма таких результатов — это чаще всего рейтинг, позволяющий идентифицировать страну или группу стран с самым высоким уровнем образовательных достижений. На основе таких рейтингов делается предположение, что образовательные практики, существующие в данной стране,— самые эффективные и потому заслуживают того, чтобы на них ориентировались другие участники [28]. Эти предположения, безусловно, требуют теоретического осмысления и эмпирической проверки. Существует ряд работ, призывающих исследователей и политиков относиться к этим предположениям осторожно и вдумчиво [12].

Тем не менее крупнейшие МСИ, такие как PIRLS или PISA, являются сегодня наиболее показательным примером эффективного проектирования и проведения исследований образовательных достижений (компетенций) на языках разных стран и культур. Однако в мире ежегодно проводятся международные сравнительные исследования, вовлекающие

не столь большое количество стран, ресурсов и внимания СМИ. Это могут быть различные совместные образовательные проекты и инициативы нескольких стран или образовательных организаций, предполагающие оценивание образовательных достижений учащихся. С другой стороны, даже при проведении внутренних национальных мониторингов могут существовать версии инструментов оценивания на различных языках, отличных от основного государственного языка. Или же речь может идти об экзаменах в учебные заведения, которые дают учащимся право выбрать язык, на котором сдавать экзамен. Эти примеры предполагают необходимость сравнения образовательных результатов участников, полученных с помощью культурно или лингвистически различающихся версий инструментов. А значит, разработчики языковых версий подобных исследований и инструментов должны ориентироваться на те же стандарты качества, что и крупные МСИ.

Ввиду того, что результаты проведения любых международных сравнительных исследований, независимо от их масштаба, влекут за собой серьезные последствия, они требуют убедительных доказательств высокого качества каждого этапа, начиная от разработки инструментов и заканчивая интерпретацией полученных данных. Целью нашей статьи является знакомство читателей с международным опытом применения стратегий и методов обеспечения сопоставимости результатов сравнительных исследований. Мы хотим рассмотреть базовые проблемы МСИ: как добиться оценок, сопоставимых для всех стран, с их различными языками и культурами? Какие механизмы обеспечивают принципиальную сопоставимость получаемых данных? Каким образом эту сопоставимость можно доказать?

Международные сравнительные исследования: основные задачи и вызовы

Началом существования МСИ в сфере образования можно считать 1958 год, когда исследователи ряда стран встретились в Институте образования ЮНЕСКО в Гамбурге, чтобы обсудить потенциал имевшихся на тот момент инструментов международных сравнений в сфере образования (в основном простых индикаторов, таких как уровень образования) и попытаться включить в них измерение образовательных результатов.

Основная идея состояла в том, чтобы провести такое исследование, которое включало бы объективные индикаторы образовательных резуль-

татов в виде потенциально сравнимых на межстрановом уровне тестов, что позволило бы изучить институциональные характеристики образовательных систем, обеспечивающих успешность учащихся в разных странах [27]. Проведенное в 12 странах в 1959-1962 годах пилотное исследование, целью которого было изучить саму возможность подобной амбициозной идеи, доказало ее потенциальную реализуемость. Тем не менее только в 90-е годы прошлого века международные исследования стали принимать ту форму, которую мы знаем сейчас, что было связано с развитием вычислительных технологий и теории педагогических измерений [8].

Международные широкомасштабные сравнительные исследования сталкиваются с большим количеством методологических вызовов, связанных с созданием качественного измерительного инструментария и его адаптацией для стран-участниц. В основном они связаны с переводом инструментов на языки культурных или языковых групп, а также с формированием выборки испытуемых.

Методологические проблемы сравнительных исследований чреваты повышенной вероятностью ошибочных выводов из их результатов. К примеру, выявленные в ходе исследования межстрановые различия могут быть обусловлены артефактом измерения, а не сущностными различиями в измеряемом конструкте. Таким образом, фундаментальной методологической задачей международных сравнительных исследований является обеспечение сопоставимости результатов.

Концепция сопоставимости результатов в МСИ

В научной литературе можно встретить различные синонимы понятия сопоставимости, например инвариантность или сравнимость результатов. Говоря о том, что некоторая оценка сопоставима в разрезе различных культур или стран, мы имеем в виду, что она измеряет один и тот же конструкт одним и тем же образом в этих культурах или странах. В контексте международных сравнительных исследований сопоставимость результатов обеспечивается через достижение эквивалентности выборок и эквивалентности измерений в различных языковых и национальных версиях инструмента оценивания.

Обеспечение сопоставимости выборок

Вопрос формирования выборки участников исследования является исключительно важным элементом с точки зрения обеспечения его ка-

чества и получения интерпретируемых данных. В идеале выборка для МСИ должна репрезентировать всех представителей целевой аудитории исследования в рамках каждой страны. Ошибки выборки включают в себя ошибку охвата (т.е. неполный охват или излишнюю представленность какой-то группы в выборке) и ошибку отбора (т.е. ошибку, связанную с процедурами отбора участников) [29].

В частности, серьезной проблемой МСИ является включение или исключение из выборки некоторых специфических групп участников. Например, учеников с ограниченными возможностями здоровья. В некоторых странах для них предусмотрены отдельные школы, в других применяется инклюзивный подход к образованию. То же касается включения в выборку частных школ или наличия в некоторых образовательных системах отдельных треков в обучении. Сложности с отбором участвующих школ хорошо иллюстрирует пример исследования PISA, когда выбранные школы могут, но не обязаны участвовать в исследовании. Так, в PISA-2015 уровень участия выбранных школ варьировался от 65% до 85% в разных странах [22].

Возрастные характеристики выборки также являются предметом многочисленных дискуссий в исследовательском сообществе. К примеру, возраст учеников 8-х классов в исследовании TIMSS сильно варьируется по странам: в Англии дети идут в школу с 4 лет, а в России — с 7 лет. С другой стороны, в исследовании PISA возраст участников должен быть в районе 15 лет, но это значит, что дети к этому моменту могут быть в 9-м, 10-м или в 11-м классе в разных странах.

Обеспечение эквивалентности измерений

Эквивалентность измерений включает в себя три важных компонента: 1) эквивалентность конструкта, 2) эквивалентность инструмента, 3) эквивалентность процедуры исследования [12].

Эквивалентность конструкта. Чтобы в контексте различных стран и культур, принимающих участие в МСИ, можно было адекватно измерить искомый конструкт, он должен быть схожим образом определен и концептуально эквивалентен в этих культурах [12]. Данные, полученные из МСИ, могут быть несопоставимы, если в реальности в разных странах оценивались разные конструкты. Было бы странным полагать, что некоторый инструмент, созданный в одной культуре, на основе ее ценностей и представлений, может быть абсолютно точно перенесен

в контекст другой страны и культуры. В научной литературе подчеркивается, что в образовании и психологии конструкты почти всегда содержат в себе культурные компоненты. Следовательно, для обеспечения сопоставимости результатов международных исследований культурные различия конструктов должны быть тщательно оценены в процессе планирования, апробации и проведения измерения.

Эквивалентность инструмента. Для проведения МСИ, как правило, создаются различные языковые версии инструмента измерения. С их культурными, содержательными, лингвистическими компонентами связана эквивалентность инструмента. В результате трансформации инструмента из одной языковой версии в другую могут возникать искажения в общем дизайне инструмента, в формулировке отдельных вопросов, в порядке вопросов или заданий, в предлагаемых вариантах ответа и др. [11]. Исследования показывают, что язык инструмента значительно влияет на то, как участники исследования отвечают на один и тот же вопрос [14]. Следует отметить, что именно ошибки и искажения, возникающие при переводе языковых версий инструмента, являются наиболее частой проблемой МСИ [7; 11].

Эквивалентность процедуры. Достижение эквивалентности процедур в МСИ предполагает, что а) каждый шаг в процессе администрирования процедуры исследования одинаков, независимо от времени и места проведения, б) формат тестирования является единообразным [14]. Ряд недавних исследований показывает, что к оценке эквивалентности процедур следует также отнести проблему стиля ответов участников исследования. Последние могут стать серьезным источником вариации в результатах международных исследований [15]. Стили ответов могут быть связаны с культурно-обусловленными различиями в мотивации участия в исследовании, различиями в стратегиях решения заданий (например, склонности к угадыванию), социальной желательности и пр. [11; 14].

Важно отметить, что любой международный инструмент оценивания, предполагающий проведение сравнений в разрезе различных стран и культур, неизбежно содержит в себе посторонний по отношению к искомому конструкту культурно обусловленный компонент. Сопоставимость данных МСИ не следует принимать как данность, она должна быть заранее продумана и в дальнейшем доказана, если целью исследования является сравнительная интерпретация баллов и обобщение результатов на различные страны и культуры.

Стандарты в адаптации инструментов МСИ

Сопоставимость оценок международного сравнительного исследования обеспечивается, в первую очередь, с помощью специально разработанных процедур адаптации инструментов оценивания для языков стран и культур, принимающих участие в МСИ. Ранее под адаптацией понимался простой перевод инструмента с одного языка на другой [26]. Однако современный подход предполагает, что адаптация — это сложный многоступенчатый процесс, позволяющий осуществить трансфер инструмента измерения, созданного в рамках одной культуры, в контекст и на язык другой культуры [17]. Такое широкое понимание адаптации связывает ее буквально со всеми видами деятельности, возникающими в ходе проведения международного сравнительного исследования.

Научно-исследовательские организации в сфере оценивания предлагают различные руководства и рекомендации, призванные обеспечить качество адаптации при проведении МСИ [4; 17]. Ведущие исследователи также предлагают свои решения по узкоспециальным проблемам МСИ, например контролю качества перевода [26], мерам обеспечения единообразия и согласованности механизмов администрирования исследования на местах [18] или методам эмпирического анализа сопоставимости полученных результатов [23].

Сегодня мировым сообществом признаны методические рекомендации по переводу и адаптации тестов, предложенные Международной тестовой комиссией (Internationl Test Commision). В актуальной версии рекомендаций, которая вышла в 2016 году, содержится шесть тематических разделов, охватывающих основные этапы процедуры адаптации [17].

В первом разделе — «Предварительные условия» — подчеркивается, что решению о проведении адаптации должны предшествовать исследования по оценке понимания измеряемого конструкта в разных странах, по оценке специфических культурных эффектов, языковых и национальных особенностей испытуемых в разных странах. Во втором разделе — «Руководство по разработке тестов» — основное внимание уделяется фактическому процессу адаптации теста — созданию инструментов на языках стран — участниц исследования, включая сбор доказательств о том, что язык и терминология являются приемлемыми для всех участников; что формат заданий, процедуры и правила тестирования им знакомы; что содержание заданий им известно и др. Третий раздел — «Подтверждение (эмпирический анализ)» — включает в себя

те рекомендации, которые связаны со сбором эмпирических доказательств эквивалентности, надежности и достоверности инструмента на разных языках. Раздел «Администрирование» посвящен организации процедур международного исследования. Пятый раздел — «Шкалы и интерпретация» — обсуждает проблему межгрупповых различий в баллах и собственно сравнение результатов. Наконец, шестой раздел, «Документация», призывает к четкой и технически выверенной фиксации всего процесса адаптации, а также освещает вопросы информирования пользователей измерительных инструментов.

Анализ сопоставимости результатов исследований в современной исследовательской практике

Как показывают многочисленные исследования, строгое соблюдение всех рекомендаций адаптации абсолютно необходимо, но даже оно не гарантирует, что в итоге проведенного международного исследования результаты всех стран окажутся сопоставимы [19]. Именно поэтому обычной практикой сегодня являются не только исследования, проводимые в процессе адаптации, но и дополнительные независимые исследования по конкретным узким темам, которые проводятся специалистами уже после открытия и публикации данных. В ходе всего комплекса таких исследований должны быть собраны убедительные эмпирические свидетельства эквивалентности измерений. Сегодня для этой цели создан большой арсенал количественных методов, включая, например, средства и методы современной теории тестирования (ШТ), конфирматорного факторного анализа, а также качественные методы для решения отдельных задач.

Отметим, что методология современной теории тестирования позволяет в принципе прогнозировать и оценивать качество проводимых измерений. Выбор математической модели, описывающей взаимосвязи измеряемого конструкта, характеристик инструмента и первичных результатов выборки, психометрический анализ качества заданий и инструмента, анализ структуры измеренного конструкта, создание шкал и итоговых оценок — в современных МСИ в сфере образования все это производится на базе ШТ. Обоснование эквивалентности результатов МСИ является важной частью общего исследовательского процесса.

Для подтверждения эквивалентности измерений в рамках ШТ прежде всего оценивается адекватность функционирования заданий и инструмента в целом внутри каждой страны. Затем проводится оценка

структуры (размерности) измеренного конструкта и ее схожести во всех странах. Наконец, проводится анализ возможных искажений в заданиях в различных языковых версиях инструментов [23].

Сигналом наличия в результатах искажений является, в частности, различное функционирование заданий (Differential Item Functioning, DIF) или инструмента в целом (Differential Test Functioning). Иногда в инструментах МСИ присутствуют задания, которые оказываются несправедливо легче или сложнее для какой-то группы участников (или для целой страны), хотя по своим способностям эта группа не отличается от других [23]. К примеру, в отчете ОЭСР было показано, что несколько заданий из области анализа данных в PISA-2006 демонстрировали искажения в отношении участников из России и Словакии [21]. Это были задания, материал которых еще не изучался большинством учеников в школах этих двух стран. Причиной различного функционирования заданий могут быть также формат заданий, специфические языковые формулировки, различная длина предложений и текстов и др. Очевидно, что задания с DIF вносят существенные искажения в результаты. Соответственно, необходимы исследования, демонстрирующие, что для шкалирования и получения баллов по результатам МСИ используются задания, свободные от DIF.

Другой подход к оценке эквивалентности измерений — это мульти-групповой конфирматорный факторный анализ, который используется исследователями для одновременной оценки сопоставимости конструктов и возможных различий между языковыми и культурными группами [24]. Применяя данный метод, исследователь на базе теоретической модели инструмента строит статистическую (факторную) модель и проверяет, действительно ли она демонстрирует одинаковые параметры во всех релевантных группах.

Проведение эмпирических исследований, которые доказывают сопоставимость данных международных исследований, является безусловным требованием качественного МСИ. «Побочным эффектом» таких исследований является периодическое обнаружение погрешностей в переводе языковых версий инструментов [6], в функционировании заданий для отдельных стран или групп стран [16], различий в измеренном конструкте [10], что отражается на репутации МСИ. В то же время такие исследования позволяют увидеть новые перспективы в развитии и совершенствовании методологии МСИ и более ответственно и рационально относиться к их выводам.

МСИ: ответственность за результаты независимо от масштаба

Международные широкомасштабные исследования стали довольно привычной частью современной реальности в образовании. Число стран, вовлеченных в такие сравнения, постоянно растет. Исследователи выделяют различные причины, по которым страны принимают решение об участии в МСИ. Например, сбор данных в целях образовательной политики, создание технологической основы для развития национальных систем образования, получение финансовой помощи (как предпосылка или подтверждение эффективности использования внешних займов), поддержка и развитие отношений с другими странами (сигнал о принадлежности к определенному сообществу, «клубу»), ответы на актуальную политическую повестку дня в стране («скандализация» результатов в рейтингах как двигатель реформ), инвестиции в экономический рост (оценка человеческого капитала страны как индикатор экономической конкурентоспособности), и, наконец, информирование образовательного и исследовательского сообщества о тенденциях и содержании образования в разных странах [3; 27]. Страны относятся к результатам МСИ крайне серьезно, и влияние, которое они оказывают на образовательную политику, свидетельствует о политическом доверии стран к практике сравнения образовательных достижений, к лежащей в основе МСИ методологии измерения и сопоставления результатов. Организации, проводящие МСИ, должны это доверие оправдывать, в том числе через проведение исследований, развитие измерительных технологий, совершенствование стандартов разработки, адаптации и организации сравнительных исследований.

В данной статье были представлены наработанные за годы проведения крупных международных сравнительных образовательных исследований практики, позволяющие обеспечивать и доказывать сопоставимость их результатов в условиях многочисленных методологических вызовов, с которыми сталкиваются МСИ. В современном мире, когда глобальное или региональное сотрудничество в сфере образовательных исследований, заимствование инструментов оценки и сопоставления образовательных результатов является обычной практикой, крайне важно иметь представление о возможностях и трудностях проведения сравнительных исследований, независимо от их масштаба.

Существует ряд примеров, когда сравнение результатов оценивания оказывалось невозможным, когда не удавалось обеспечить сопостави-

мость измерений, в частности из-за того, что адаптация инструмента для использования в другой языковой или культурной группе была реализована недостаточно качественно. К примеру, в исследовании сопоставимости версий национального экзамена для приема в вузы Израиля на иврите и русском языке было выявлено, что треть заданий демонстрировала несправедливое функционирование в пользу участников, сдававших экзамен на русском языке. После публикации исследования инструмент был серьезно переработан [5]. Другой пример — адаптация американского выпускного экзамена для аттестации медицинских сестер в Канаде для английских и французских языков. Проведенное исследование выявило серьезные нарушения процедуры адаптации и фактическую несопоставимость языковых версий экзамена, что поставило вопрос об отказе от инструмента [13].

Проведение сравнений образовательных достижений, будь то крупномасштабные международные исследования или локальные проекты, предполагающие сопоставление результатов различных языковых и культурных групп, требует серьезных ресурсов и усилий. Базовое предположение о том, что результаты оценивания в принципе сравнимы, должно быть тщательно проверено и доказано исследователями. Только в этом случае сделанные на основе исследований выводы, сравнения, интерпретации могут быть признаны надежными, валидными и справедливыми, а значит, по-настоящему полезными для всех участников.

Исследование выполнено за счет гранта Российского научного фонда (проект № 16-18-10401).

PROBLEM OF COMPARABILITY OF RESULTS IN INTERNATIONAL COMPARATIVE STUDIES OF EDUCATIONAL ACHIEVEMENTS

International comparative studies of educational achievements became a driver of the ongoing changes in the educational system in many countries, including Russia. The largest international research is in many ways an example of effective design and implementation of the study of educational achievements on a global scale. However, today many studies of a lesser scale are being conducted. These studies also involve comparisons of the educational results obtained with various language versions of the assessment instrument. Nevertheless, regardless of the scale, resources and the number of participants, the studies that suppose comparisons require convincing evidence of the high quality on each stage of their life cycle from developing tools to interpreting their data. In modern practice, the examples are known, when researchers were not able to ensure comparability of measurements, and therefore, comparisons of the evaluation results were impossible. The purpose of the current paper is to show international experience in applying strategies and methods to ensure comparability of the results for comparative studies. The article examines the main problems and challenges

that the organizers of international comparative studies face; it proposes procedures for assessing possible threats; and, finally, it considers the mechanisms developed by the international community to ensure comparability of these studies. Only in the case of strict adherence to the procedures for ensuring the quality of an international study, the conclusions, comparisons and interpretations made on its basis can be recognized reliable and fair.

Keywords: international comparative studies, adaptation, evaluation, comparability, equivalence of results, comparisons.

Литература/References

1. Болотов, В. А., Вальдман, И. А., Ковалёва, Г. С. и др. Российская система оценки качества образования: главные уроки // Качество образования в Евразии.— 2013.— № . 1. С 85-121.

2. Ковалева Г. С. Финансовая грамотность как составляющая функциональной грамотности: международный контекст //Отечественная и зарубежная педагогика. 2017. Т. 1, № 2 (37). С. 31-43.

3. Addey, C., Sellar, S., Steiner-Khamsi et al. The rise of international large-scale assessments and rationales for participation // Compare: A Journal of Comparative and International Education. 2017. Т. 47, № . 3. С. 434-452.

4. AERA, APA, NCME. Standards for educational and psychological testing. Amer Educational Research Assn, 2014, C. 57.

5. Allalouf A., Hambleton R. K., Sireci S. G. Identifying the causes of DIF in translated verbal items //Journal of educational measurement. 1999. Т. 36, № 3. С. 185-198.

6. Asil M., Brown G. T. L. Comparing OECD PISA reading in English to other languages: Identifying potential sources of non-invariance // International Journal of Testing. 2016. Т. 16, № 1. С. 71-93.

7. Bemtez I., Padilla J. L. Analysis of nonequivalent assessments across different linguistic groups using a mixed methods approach: Understanding the causes of differential item functioning by cognitive interviewing // Journal of Mixed Methods Research. 2014. Т. 8, № . 1. С. 52-68.

8. Braun H. Prospects for the future: A framework and discussion of directions for the next generation of international large-scale assessments // The role of international large-scale assessments: Perspectives from technology, economy, and educational research. Springer Netherlands, 2013. С.149-160.

9. Dolin J., Krogh L. B. The relevance and consequences of PISA science in a Danish context // International Journal of Science and Mathematics Education. 2010. Т. 8, № 3. С. 565-592.

10. Ercikan K., Koh K. Examining the construct comparability of the English and French versions of TIMSS // International Journal of Testing. 2005. Т. 5, № 1. С. 23-35.

11. Ercikan, K., & Lyons-Thomas, J. Adapting tests for use in other languages and cultures. In K. F. Geisinger, B. A. Bracken, J. F. Carlson, et al. (Eds.). APA handbook of testing and assessment in psychology. Testing and assessment in school psychology and education. Washington, DC, US: American Psychological Association. 2013. Т. 3, С. 545-569.

12. Ercikan K., Roth W. M., Asil M. Cautions about inferences from international assessments: The case of PISA 2009 // Teachers College Record. 2015. Т. 117, № 1. С. 1-28.

13. HallL. M. G., Lalonde M., Kashin J. People are failing! Something needs to be done: Canadian students' experience with the NCLEX-RN // Nurse education today. 2016. Т. 46. С. 43-49.

14. Hambleton R. K. Issues, designs, and technical guidelines for adapting tests into multiple languages and cultures // Adapting educational and psychological tests for cross-cultural assessment. 2005. Т. 1. С. 3-38.

15. He J., Van de Vijver F. J. R. Response styles in factual items: Personal, contextual and cultural correlates // International Journal of Psychology. 2016. Т. 51, № 6. С. 445-452.

16. Huang X., Wilson M., Wang L. Exploring plausible causes of differential item functioning in the PISA science assessment: language, curriculum or culture // Educational Psychology. 2016. Т. 36, № 2. С. 378-390.

17. International Guidelines for Test Use // ITC [International Test Commission], 2016 [Электронный ресурс]. URL: www.InTestCom.org. Дата обращения: 11.08.2017. // International Journal of Testing.

18. Jowell, R., Roberts, C., Fitzgerald, R., & Eva, G. Measuring attitudes cross-nationally: Lessons

from the European Social Survey. London: Sage, 2007. C. 18, 117.

19. Laschke C., Blomeke S. Measurement of job motivation in TEDS-M: testing for invariance across countries and cultures // Large-scale Assessments in Education. 2016. Т. 4, № 1. С. 16.

20. Niemann D., Martens K., Teltemann J. PISA and its consequences: Shaping education policies through international comparisons // European Journal of Education. 2017. Т. 52, № 2. С. 175-183.

21. OECD. Learning Mathematics for Life. A perspective from PISA. OECD Publishing, 2010 [Электронный ресурс]. URL: http://www.oecdbookshop.org/browse.asp?pid=title-detail&lang=en&ds =&ISB=9789264075009. Дата обращения: 09.09.2017

22. OECD. PISA 2015. Technical report. OECD Publishing, 2015 [Электронный ресурс]. URL: http://www.oecd.org/pisa/data/2015-technical-report. Дата обращения: 12.09.2017

23. Oliveri, M. E., Olson, B. F., Ercikan, K., & Zumbo, B. D. Methodologies for investigating item-and test-level measurement equivalence in international large-scale assessments // International Journal of Testing. 2012. Т. 12, № 3. С. 203-223.

24. Putnick D. L., Bornstein M. H. Measurement invariance conventions and reporting: The state of the art and future directions for psychological research // Developmental Review. 2016. Т. 41. С. 71-90.

25. Sellar S., Lingard B. The OECD and the expansion of PISA: New global modes of governance in education // British Educational Research Journal. 2014. Т. 40, № 6. С. 917-936.

26. Sperber A. D., Devellis R. F., Boehlecke B. Cross-cultural translation: methodology and validation // Journal of cross-cultural psychology. 1994. Т. 25, № 4. С. 501-524.

27. Strietholt R., Scherer R. The Contribution of International Large-Scale Assessments to Educational Research: Combining Individual and Institutional Data Sources // Scandinavian Journal of Educational Research. 2018.№ 62, Т. 3 С. 368-385.

28. Steiner-Khamsi, G., Waldow, F. (2012). World Yearbook in Education 2012: Policy Borrowing and Lending in Education. New York, NY: Routledge. P. 46.

29. Wu M. Measurement, sampling, and equating errors in large-Scale assessments // Educational Measurement: Issues and Practice. 2010. Т. 29, № 4. С. 15-27.

Приложение 2

Ivanova, A., Kardanova, E., Merrell, C., Tymms, P., & Hawker, D. (2018). Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school. Assessment in Education: Principles, Policy & Practice, 25(2), 141-159.

Is it possible to compare the results in assessments of mathematics across countries with different curricula, traditions and age of starting school? As part of the international Performance Indicators in Primary Schools (iPIPS) project, a Russian version of the iPIPS baseline assessment was developed and trial data were available from about 300 Russian children at the start and end of their first year at school. These were matched with parallel data from representative samples of equal numbers of children from England and Scotland. The equating of the scales was explored using Rasch measurement.

A unified scale was easiest to create for England and Scotland at the start and end of their first year at school when children only differ by a half a year in age, and live in adjacent countries with a common language. Although fewer items showed invariance across the three countries, it was possible to link iPIPS scores in mathematics from the start and end of the first year at school across Scotland, England and Russia.

The findings of this international comparative study of children starting school in England, Scotland and Russia suggest that, despite the apparent difficulties, meaningful comparisons of mathematics attainment and development can be made. These will allow for substantive interpretations with policy implications.

R

Routledge

Taylor & Francis Group

Assessment

in Education;

$

Assessment in Education: Principles, Policy & Practice

ISSN: 0969-594X (Print) 1465-329X (Online) Journal homepage: https://www.tandfonline.com/loi/caie20

Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school

Alina Ivanova, Elena Kardanova, Christine Merrell, Peter Tymms & David Hawker

To cite this article: Alina Ivanova, Elena Kardanova, Christine Merrell, Peter Tymms & David Hawker (2018) Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school, Assessment in Education: Principles, Policy & Practice, 25:2, 141-159, DOI: 10.1080/0969594X.2016.1231110

To link to this article: https://doi.org/10.1080/0969594X.2016.1231110

fffi] Published online: 19 Sep 2016.

Lz Submit your article to this journal

LdiL Article views: 434

Bl View related articles

(D CrossMark View Crossmark data

<a Citing articles: 4 View citing articles

Full Terms & Conditions of access and use can be found at https://www.tandfonline.com/action/journalInformation?journalCode=caie20

ASSESSMENT iN EDUCATiON: PRiNCiPLES, POLiCY & PRACTiCE, 2018 VOL. 25, NO. 2, 141-159

https://doi.org/10.1080/0969594X.2016.1231110

I H) Check for updates |

Checking the possibility of equating a mathematics assessment between Russia, Scotland and England for children starting school

Alina Ivanovaa , Elena Kardanovaa, Christine Merrellb, Peter Tymmsb and David Hawkerb

aCenter of Education Quality Monitoring, Institute of Education, National Research University Higher School of Economics, Moscow, Russia; bCentre for Evaluation & Monitoring, Durham University, Durham, UK

R

Routledge

Taylor & Francis Croup

ABSTRACT

Is it possible to compare the results in assessments of mathematics across countries with different curricula, traditions and age of starting school? As part of the iPIPS project, a Russian version of the iPIPS baseline assessment was developed and trial data were available from about 300 Russian children at the start and end of their first year at school. These were matched with parallel data from representative samples of equal numbers of children from England and Scotland. The equating of the scales was explored using Rasch measurement. A unified scale was easiest to create for England and Scotland at the start and end of their first year at school when children only differ by a half a year in age, and live in adjacent countries with a common language. Although fewer items showed invariance across the three countries, it was possible to link iPIPS scores in mathematics from the start and end of the first year at school across Scotland, England and Russia. The findings of this study suggest that, despite the apparent difficulties, meaningful comparisons of mathematics attainment and development can be made. These will allow for substantive interpretations with policy implications.

ARTICLE HISTORY

Received 27 April 2015 Accepted 24 August 2016

KEYWORDS

International; mathematics; baseline; primary school

Introduction

Despite the growing influence of international surveys of student achievement such as Programme for International Student Assessment (PISA) and Trends in International Mathematics and Science Study (TIMSS), there is currently no international baseline study of children's development on starting school. As a result, it is not possible to know the extent to which the differences in performance between countries, which are observed in these later assessments, are already present when children start school, and how far they are the result of differences in the effectiveness of schools, although a recent paper by Merry (2013) showed that the magnitude of PISA reading differences between Canada and the USA were paralleled in early childhood; this opens up possibilities on a wider scale.

CONTACT Alina ivanova Q aeivanova@hse.ru

© 2016 informa UK Limited, trading as Taylor & Francis Group

The results from PISA and TIMSS have a major influence on preschool policies in many countries, despite these assessments being of much older children. For example, the OECD (2012) reported that, of around 35 countries which responded to a survey, over one-third said that the PISA results had had a direct influence on their policies for early childhood education.

Clearly, it is hard to conclude anything directly from PISA or TIMSS about the relative effectiveness of different countries' early years education policies, but countries are attempting to do this nonetheless. Additionally, the information gleaned from an assessment administered at a single time point at the start of school is limited. The first year of school is a time of rapid change for children's development and an assessment at the start and end of that important period not only provides valuable information about the effectiveness of schools at that time but also gives a more stable measurement basis from which to monitor progress up through the education system.

The Performance Indicators in Primary Schools (PIPS) baseline assessment (Tymms, 1999) was created by Tymms in 1994 and subsequently developed with Merrell. Over the years, it has been used to assess more than three million children, and has provided thousands of schools in the UK and elsewhere with high-quality information about children's development and their own educational effectiveness. It is generally repeated at the end of the first year of school to provide a measure of children's progress during that year.

It has, for example, been used successfully in a number of countries for self-evaluation including Abu Dhabi, Australia, England, Germany, New Zealand, Scotland and South Africa. (Archer, Scherman, Coe, & Howie, 2010; Bauerlein, Niklas, & Schneider, 2014; Tymms & Wylde, 2004; Wildy & Styles, 2008a, 2008b). As a result of the widespread use of PIPS, it has been possible to make comparisons between children starting school at different ages in English-speaking countries using PIPS (Merrell & Tymms, 2007; Tymms & Merrell, 2009; Tymms, Merrell, Hawker, & Nicholson, 2014). Building upon these studies, a new international comparative study of children starting school has been proposed called iPIPS. This project is intended to provide comparative, system-level information to policy-makers and researchers. It used the PIPS assessment, adapted and extended for the comparative work.

Previously published comparisons of children starting school using the PIPS assessment involved mainly English-speaking countries. The involvement of a sample from Russia with its different language and where children are, on average, 7 years old at the start of school presented an opportunity to explore the challenges of equating these data with samples from England and Scotland where the children are much younger at the start of school. This study focused on the iPIPS baseline assessment and follow-up, extending our understanding of the challenges and possibilities of making comparisons across countries of young children's development, which is an important contribution to the debate if meaningful conclusions are to be drawn about the effectiveness of countries' educational policies in future.

Early years education and care in Russia, England and Scotland

Russia, England and Scotland each have their own policies with regard to early education and care, which influence the type and amount of provision that children receive. They also have their own arrangements for the first year at school. A brief description of each is given in Appendix A.

ASSESSMENT IN EDUCATION: PRINCIPLES, POLICY & PRACTICE @ 143

The three educational systems - Russian, English and Scottish - have a number of features in common. First, all three countries place great importance on early childhood education and development. Second, preschool education is not compulsory in any of the countries, but the majority of children do attend. Thirdly, in all three countries, there is an understanding of the importance of baseline assessment.

The three schooling systems also differ significantly. First, they differ in the age of children starting school. Secondly, there are different country-specific traditions and cultures of assessment. For example, at present, in Russia, there are no standardised, valid assessments applicable to large-scale surveys for evaluating the initial level of a child starting school. Thirdly, the three countries have different curricula at the start of school, although all three include literacy and mathematics albeit in differing contexts with differing traditions and different foci.

The iPIPS baseline and follow-up assessment

The PIPS assessment was developed with the aim of providing teachers with a comprehensive profile of children's early reading and mathematics skills, and of their personal and social development at the start of school. This evolved over the years and now the iPIPS assessment can be efficiently administered on computer or with a paper manual accompanied by an app running on a smart phone or tablet. The app records responses and guides the administrator through the choice of items. The early reading and mathematics part takes between 15 and 20 min per child working on a one-to-one basis with the administrator. With the computer version, the software presents items to the child on screen with sound files. With the booklet and app version, the child sees the same pictures as for the computer version and the administrator asks the questions using the same script as the sound files. It is possible to collect a very reliable yet comprehensive measure of children at the start of school because iPIPS is adaptive, using sequences of items with stopping rules. The items are arranged into sections in order of increasing difficulty. The sections are described in the 'Instrument' section later in the paper. Each child begins with easy items and moves on to progressively more difficult ones. When they make a number of errors, the assessment progresses to the next section and so the assessment continues. The assessment is repeated at the end of the school year, taking off from the point where the child began to falter on their first assessment. Thus, they do not repeat items which were clearly very easy for them at the beginning of the year.

The system is straightforward to use and very popular with schools. Over the years, the assessment has proved to be very reliable, with a test-retest reliability of 0.98 and internal consistency (Cronbach's alpha) of around 0.92 on the test as a whole for children starting school (Tymms et al., 2014). It has also proved to have extremely good predictive validity, with correlations of around 0.68 to later national assessments at ages 7 and 11, and of around 0.5 to the national examinations at age 16 (Tymms, 1999; Tymms, Merrell, Henderson, Albone, & Jones, 2012).

Adaptation of the PIPS assessment for use in Russia

Adaptation is not just translation. It includes many activities ranging from decisions about whether or not the same construct can be assessed in a different language and culture to

checking equivalence of the initial and adapted assessment versions (Hambleton, 2005). The validity of comparisons using an adapted assessment critically depends on the degree to which the adapted versions do indeed measure the intended constructs and provide comparable measurements (Ercikan & Lyons-Thomas, 2013).

Several different assessment adaptation processes exist including parallel, successive, simultaneous and concurrent development of different language versions of assessments (Ercikan & Lyons-Thomas, 2013). To develop the Russian version of the PIPS baseline assessment, the method of successive assessment adaptation was used whereby assessments that are developed for one language and culture are subsequently adapted to other cultures. Therefore, the conceptualisation of the construct being assessed is based on one culture, the wording of assessment items, the actual items included in the assessment, how they should be evaluated and how they relate to the construct. These items are all based on the culture for which the assessment was originally developed.

In developing the Russian version, the main task was to ensure, so far as was possible, the equivalence of the assessments in both languages. Translation can affect the meaning of words and sentences, the content of the items and the skills measured by the items. The degree and manner in which item features are changed during translation will determine whether the equivalence of items is maintained. The process of assessment adaptation involved input from specialists of differing perspectives, translators, cultural and linguistic reviewers and teachers. Back-translation was used to check the equivalence of the different language versions of the assessments. All the Russian items were translated back into English and compared with the original items by experts (both English and Russian) and with the iPIPS developers. Criteria for evaluation included (1) differences in the meaning of the item; (2) differences in the item format; (3) differences in the item presentation; (4) difference in cultural relevance; (5) exclusion or inappropriate translation of key words; (6) differences in length or complexity of sentences; etc. (Ercikan, Gierl, McCreith, Puhan, & Koh, 2004). All translation errors were documented and discussed, and items were revised.

Thus, firstly, the items from the English version were translated into Russian by two independent translators. After editing and further discussing the final translation, Russian subject specialists verified the suitability of the content. Subsequently, the Russian booklet was back-translated into English and the items compared with the original version.

Secondly, the administration procedure was standardised. To do this, the team which adapted the version for Russia discussed the procedure with the original authors of the assessment and then produced guidance to ensure that it was being administered in an equivalent way in both countries.

It has already been noted that the ages of the target populations in the three countries differed significantly. Additional items were added to the Russian version to try to avoid the assessment reaching a ceiling, particularly on the second, follow-up assessment later in the school year. Some of the very easy items that all children in Russia were able to answer correctly were omitted from the Russian version.

For the study, it was necessary to confirm the equivalence of the adapted assessments in measurement terms. Two approaches were used: (a) Rasch measurement theory analysis of assessment items and assessments (comparisons of item characteristics, item maps, item hierarchy, dimensionality, etc. for two language versions); and (b) identification of differential item functioning (DIF) across countries and within country variables.

assessment in education: principles, policy & PRACTICE @ 145

The dichotomous Rasch model (Wright & Stone, 1979; Andrich, 1988) was used for data analysis. It transforms children's raw scores into measures on an equal interval scale. In this model, each assessment item is characterised by one parameter, (difficulty), and each assessment participant is also characterised by one parameter (ability). Rasch analysis places participants and items on the same log-odds measurement scale (logit) with an arbitrary unit. The reasons for choosing the Rasch model are both psychometrical and practical. Firstly, the Rasch model has optimal metric properties, and secondly, from a practical point of view, it is useful for parameter estimation and data analysis - empirically determining the quality of assessment items, constructing scales and carrying out assessment equating (Bond & Fox, 2001). Winsteps software (Linacre, 2011) was used for this process.

An item demonstrates differential item functioning (DIF) if assessment participants with the same ability level who belong to different groups have markedly different chances of completing that item correctly. Two methods - Mantel-Haenzel (MH) and Logistic Regression (LR) - were used, according to circumstances, to check DIF in this study (Dorans, 1989; Zumbo, 1999).

The Mantel-Haenszel DIF detection method is one of the most commonly used tests for detecting differential item functioning. It consists of comparing the item performance of two groups of participants, whose members were previously matched on the ability scale. The matching is carried out using the observed total test score as the criterion or matching variable. To test for DIF (across countries and across assessment cycles) with MH method, we used the Educational Testing Service (ETS) approach for DIF classification (Zwick, Thayer, & Lewis, 1999), which designates items as A (negligible or non-significant DIF), B (slight DIF) or C (large DIF) items depending on the magnitude of the difference and the statistical significance as found using the Mantel-Haenszel statistic (Dorans, 1989). An item was considered a C item if two conditions were satisfied: (1) the difference in item relative difficulty between different groups of students was more than 0.64 logits and (2) the Mantel-Haenzel statistic had a significance level of p < .05 (Linacre, 2011).

The LR method is also commonly used for detecting DIF. It is based on statistical modelling of the probability of responding correctly to an item as a logistic function of at least one or more predictor variables. Predictors include the total score as the ability measure, a grouping variable and the interaction between ability and group. An item is identified as DIF item when the latter two variables show a significant improvement in the data-model fit beyond a model that includes only ability (Zumbo, 1999). The variables are entered into the model in this order: (step #1) total score, (step #2) group and (step #3) the interaction term of ability and group. Such modelling allows to identify the presence of DIF (comparisons between the models at step 3 versus step 1), as well as the type of DIF, non-uniform and uniform. To identify the type of DIF, comparisons between the models at step 3 versus step 2 and step 2 versus step 1, respectively, should be made. In the framework of Rasch measurement, the non-uniform DIF is not a specific target of DIF analysis and it is considered rather as violation of model assumptions. But we included the identification of DIF type because it can give additional information.

Thus, DIF was identified by comparing models from step 3 (the full model) compared to step 1 (the ability only model). As Zumbo (1999) suggested, for an item to be classified as displaying DIF, the two degree-of-freedom chi-squared test in LR had to have a p-value less than or equal to 0.01 and the Zumbo-Thomas effect size measure had to be at least an R-squared of 0.13. To measure the magnitude of DIF, we used the Zumbo and Thomas

(1996) approach for DIF classification, which designates items in three categories: items which exhibited negligible DIF (R-squared values below 0.13), moderate DIF (R-squared values between 0.13 and 0.26) and large DIF (R-squared values above 0.26). Both the moderate and large categories also required the item to be flagged as statistically significant with the two degree-of-freedom chi-square test. After this process, to identify the type of DIF, comparisons were made between the models at step 3 versus step 2 and step 2 versus step 1 to determine the presence of non-uniform and uniform DIF.

The reasons to use these two methods for DIF analysis were the following. Firstly, MH and LR methods are the most often used. Second, although the Russian sample size was relatively small, it is sufficiently large to use MH and LR methods (Narayanan & Swaminathan, 1994; Zumbo, 1999). Third, taking into account the different ages of the target populations in the three countries, we assumed that ability distribution differences between the groups of participants would exist. It is known that the differences in ability mean and variance increase the Type I error rate for both DIF detection methods, but especially for MH (Narayanan & Swaminathan, 1994; Pei & Li, 2010).

In conducting DIF analysis, an item was considered as an item with DIF if two conditions were satisfied: (1) the MH method designated the item as C item (large DIF) and (2) the LR method designated the item as moderate or large DIF item.

After DIF detection, items that were identified as DIF were omitted, and the total score was recalculated. This recalculated total score was used as the matching criterion for a second DIF analysis to ensure the matching of groups was appropriate. Additionally, to investigate the sources of DIF, all items identified as DIF were analysed for content and cultural relevance.

To confirm the measurement equivalence of two assessments, it is necessary to establish a measurement unit and scalar equivalence. Scores from different adaptations of the same assessments cannot be considered comparable without a score linking exercise. Different methods can be used, but the most appropriate for this study was thought to be separate monological group design (Sireci, 1997). This employs a set of items found to be equivalent in the two versions as anchor items in Rasch-based calibration. It is especially challenging to develop equivalent versions of verbal items where culture and language have potentially large differential impact. In the present study, we considered only mathematics items for comparison between countries.

Method Participants

The Russian sample consisted of 310 children recruited from 21 classes of 21 schools in the Novgorod region, located in the central part of Russia where the majority of the population is ethnic Russians. This region was selected because its socio-economic characteristics were similar to those in the country as a whole, based on the 2010 census (Social and demographic portrait of Russia, 2010). For example, the distribution of the region's population by educational level (62% college and above; 30% high school; 8% below high school) was similar to the national figure (65% college and above; 29% high school; 6% below high school), as was the ratio of urban to rural students in the region (72% urban; 28% rural).

The target population was children enrolled in first grade on the 1 September 2013. The sample represented about 5% of all the grade 1 students of this region. The sample was randomly selected after stratification on two parameters: (i) the school location (rural or urban area) and (ii) the different status of schools (there are three main types of schools in Russia: comprehensive (general regular) schools, schools specialising in a certain subject and gymnasia (some of them fee-paying)). All the chosen schools consented to participate. After parental consent was obtained (the majority of parents gave permission for their children to participate in the study), children were randomly selected within the selected classes.

The first cycle of assessment was administered in mid-October 2013. The second follow-up assessment was administered during the fourth week of April 2014. Ten per cent of pupils were absent during the second cycle. Tables 1 and 2 give details of the achieved sample for the two assessment cycles.

The Russian sample differed from both the English and the Scottish samples by the age of children and the sample size. Table 3 shows these differences.

The origin of the samples for England and Scotland and how their representativeness was established can be found in Tymms et al. (2014) and are based on PIPS data which were collected already.

Instrument

The final version of the Russian PIPS assessment was structured in the same sections as the original English version and used the same algorithms. Table 4 shows the content of the English and Russian assessments for the mathematics part.

Table 1. The Russian sample, october 2013.

Gender (%) Place of living (%) Type of school (%)

Female 49 urban 71.6 Male 51 Rural 28.4 In total: 310 pupils Gymnasium specialised school comprehensive school 16.1 21.9 61.9

Table 2. The Russian sample, April 2014.

Gender (%) Place of living (%) Type of school (%)

Female 49.8 urban 70.8 male 50.2 rural 29.2 In total: 277pupils Gymnasium specialised school comprehensive school 16.6 20.9 62.5

Table 3. Average age of children at the time of the first assessment and numbers.

number of participants in the base Country Mean age in years line assessment - Number of participants in the follow-up assessment

England 4.56 6985 scotland 5.09 6627 russia 7.33 310 5837 6627 277

Table 4. Content of booklets in two versions.

English version

Russian version

Understanding of mathematical concepts (bigger, smaller, etc.)

Counting and numerosity of four and seven objects Simple sums presented informally using pictures Recognition of single-digit numbers and then teens followed by two and three digits Recognition of shapes and patterns counting on with dots as an aide More advanced calculations, some presented with formal

notation Simple applied math problems

The same plus more difficult items

Not included The same

Very similar starting with teens and including four- and

five-digit numbers Not included The same The same

Not included

The first piloting in October 2013 in Russia suggested a ceiling effect on some sections. For the second cycle of the assessment, these sections were extended with items that were intended to be more difficult and some items were omitted.

All items in the baseline and follow-up assessments for the three countries were of the same type: they were short questions asked by the assessor requiring a short answer.

Data collection

The Russian children were assessed by specially trained assessors using the booklet and app.

In England and Scotland, the children were assessed by the staff in the school which they attended using the computer-delivered version.

Results: linking the English, Scottish and Russian data

There were six data-sets in total, baseline and follow-up for the three countries. Simultaneous Rasch equating was used to link and compare the results from all six data-sets (Wolfe, 2004). During this procedure, each item is either treated as common to at least two countries or as unique. Thus, the overlap between subsets of data allows us to simultaneously estimate parameters for the Rasch model.

To conduct the analysis, random subsamples of comparable size to the Russian data were created from the available English and Scottish baseline assessment samples. The same children were chosen from the follow-up assessment samples. Thus, we had a single matrix for equating, with data on children from three countries who had been assessed both at the start and at the end of the year. The total sample size was 1867 students. The total number of items was 81, including both common and unique items. There were 37 common items between all countries, 25 items were unique for Russia and 19 unique for England and Scotland. The data analysis was performed in several steps as follows1:

Step 1. Analysis of model fit. Items with low discrimination and/or those that did not fit the model were deleted. This applied to 3 of the 81 items (two common items and one Russian item). Two England and Scotland items were dropped from the analysis because of extreme difficulty. No further substantial or technical problems were identified. Thus, 76 items were left in the analysis after this step, with 35 common items between the three countries).

Table 5. DIF items across country (LR method). fi-squared values at each step in the

sequential hierarchical regression DIF R squared

Item Step #1 Step #2 Step #3 DIF x2 (df=2) test AR2 (step 3-1) M2 (step 3-2) AR2 (step 2-1)

I255 ,348 ,547 ,547 309,457 ,199 ,000 ,199

I258 ,293 ,497 ,504 p=.000 293,901 ,211 ,007 ,204

1261 ,024 ,657 ,657 p=.000 684,044 ,633 ,000 ,633

I305 ,351 ,528 ,533 p=.000 224,112 ,182 ,005 ,177

I308 ,175 ,412 ,420 p=.000 163,042 ,245 ,008 ,237

I311 ,016 ,408 ,422 p=.000 145,541 p=.000 ,406 ,013 ,392

Table 6. Items showing DIF.

Item ID List of items Direction of DIF

I255 Number identification: teen 1 Ru>En,SC

I258 Number identification: two digit Ru>En,SC

I261 Number identification: three digit Ru>En,SC

I305 Look at this set of numbers. What should be there instead of the asterisk? 10 20 30 40 * En,Sc>Ru

I308 Can you do this sum? 4+11 = Ru>En,SC

I311 Can you do this sum? 15-4= Ru>En,Sc

Step 2. Country-related DIF analysis. Firstly, DIF analysis was conducted across England and Scotland. No items exhibited DIF in accordance with the chosen criteria. This is understandable because children in England and Scotland only differ by a half a year in age, and live in adjacent countries with a common language. For further country-related DIF analysis, Russian sample and joint English and Scottish sample were considered.

LR analysis revealed that six items exhibited moderate or large DIF. Table 5 lists the results from the DIF analysis of the detected items.

Although the exact type of DIF was not of concern, the analysis was conducted to understand what appeared to be occurring. As the last two columns in Table 5 display, all items were uniform DIF items: the difference in R-squared from Step #2 to Step #3 was quite small compared to the difference from Step #1 to Step #2.

The MH method revealed that eight items exhibited large DIF (C items), and six of them exhibited DIF according to the LR method. Thus, our analysis revealed that six items exhibited DIF in accordance with the two methods. The six items with DIF appeared in several different sections, including recognition of numbers, use of arithmetical operations and logic sequencing.

Table 6 lists these items and the direction of DIF. In the table, we use the following notations for DIF direction: Ru>En,SC, that means DIF in favour of Russia, that is to say the items were relatively easy for Russian children compared to children from England and Scotland of similar math attainment. We see that five items demonstrate DIF in favour of Russia and one item in favour of England and Scotland.

After reviewing the DIF items, we explored possible causes of DIF for the 6six items. Just why the items should vary in relative difficulty across countries is not clear but it is doubtless due, in general terms, to differences in age, the practices of pre-schools and the upbringing at home. Interestingly though, this 'why' question is it is not of concern for this paper; rather, we need to delete the items that exhibit DIF from the linking procedure.

Seventy items remained at this stage. Among them, there are 29 common items, 24 items unique to Russia and 17 items unique to England and Scotland. After the DIF items were removed, all the remaining items were assessed again for DIF across countries. Based on LR method, no items exhibited DIF now.

Step 3. Dimensionality study. We examined the dimensionality of the scale by conducting a principal component analysis (PCA) of the standardised residuals, which are the differences between the observed response and the response expected under the model (Linacre, 1998; Smith, 2002). The scale was essentially unidimensional with one strongly dominant dimension and no further items were dropped.

Step 4. DIF analysis relating to assessment cycles. DIF analysis across cycles was conducted with the same approach as across countries. Fifty-five items were used for both cycles, baseline and follow-up. Figure 1 shows item relative difficulties separately from different cycles of assessment - baseline and follow-up. The majority of items demonstrate stable estimates of their relative difficulty, which means that the items function in a similar manner at baseline and follow-up, so they are DIF free. Only three items were detected as DIF items, which included recognition of three-digit numbers (two items) and applied math problem (one item). Taking into account the small size of DIF for these items, we decided to keep them in the analysis.

-, <> A => -f> # $ & & # tP ¿> & ^ J ¿p <? & <? <S> & A0 -N1 -o <f>

Figure 1. Item relative difficulties for different countries.

Step 5. Analysis of the whole scale. The next part of analysis was devoted to the properties of the whole scale. Our analysis produced a person reliability of 0.95, meaning that the proportion of observed person variance considered true was 95%.

Figure 2 presents the Rasch variable map, which shows the relative distribution of all items and assessment takers from all countries for both cycles of assessment in a common metric.

The distribution of students is wide and, for measurement purposes, clearly differentiates between higher and lower scoring students. The distribution of item locations is also good because the span includes very easy items appropriate for less able students and very difficult items appropriate for advanced students. Furthermore, the progression of items from easier-to-more difficult represents a smooth, uniform continuum of increasing difficulty. The student sample is well located relative to the mathematics items, which means that the assessment was targeted for the sample.

To conclude, although only 29 common items showed invariance across the three countries, it was possible to equate iPIPS scores in mathematics from the start and end of the first year at school across Scotland, England and Russia. However, it is acknowledged that deleting items can reorient the variance.

Children estimation. Estimation of children's math measures was conducted using the model outlined above. As a result, we have measures of the whole samples in terms of math

Person

Item

Figure 2. The iPIPS math variable map for the common scale.

England Scotland Russia

Figure 3. Box-and-whisker plots of math attainment in the three countries on the two occasions.

Table 7. Average math level of children and progress across three countries.

Start of year Follow-up Progress per

Country Mean SD Mean SD Mean difference SD of difference month

England -320 221 086 235 408 180 045

scotland -173 198 207 219 384 169 043

Russia 149 185 344 195 197 108 032

ability for both baseline and follow-up cycles of assessment and for all countries on the same metric scale. This allowed us to make valid comparisons of children's achievement from different countries at different time points.

Results: variation across countries

Figure 3 shows box-and-whisker plots of the math attainment of the children in the samples for the three countries at the start and end of the year.

The chart shows a considerable range of math performance from the weakest children starting school in England with some who were not able to count four objects to the strongest children in Russia at the time of the second assessment who were able do formal sums such as 42-17.

The chart shows the very clear progress made by each country's cohort between the start and end of the year. And despite the differences, there is a considerable overlap between all the cohorts.

The chart also shows that the median score for Scotland was higher than for England on both occasions and that medians for Russia were higher still.

One-way ANOVA showed significant differences (p < 0.01) between the average math levels of children in the three countries both at the start and at the end of the first school year. Table 7 illustrates this final point.

Figure 4. Three country age-related comparisons.

The table also shows that the learning gain from baseline assessment to follow-up was found to be larger in England than Scotland (slightly) or Russia (markedly). This difference is partially explained by shorter time between the two assessments in Russia: 6 months as against between 8 and 9 months in the other countries. To provide a fairer comparison, we computed the progress per month. This is presented in the last column of the table. The average progress per month is still less for Russia than in the other countries. Possible reasons for this are picked up in the discussion section later.

The next analysis of the results relates to comparisons of children's achievement to age. The children were put into 17 age categories corresponding to increments of 3 months. The average scaled scores were then plotted against age to produce Figure 4 below.

The values on the y-axis in Figure 4 are mean scores in logits with error bars denoting the 95% confidence interval. The confidence intervals for Russia are wider than for England and Scotland because of the smaller sample of children.

Figure 4 shows that, within confidence intervals, the math scores tend to rise steadily with age, and this holds true for both cycles of assessment and for all three countries. The strength of this relationship is stronger for the younger the cohort, which coincides with differences between countries.

Second, the patterns for England and Scotland are very much in line with one another, although the scores of children in Scotland are slightly higher than for children of a similar age in England at baseline and follow-up assessments.

Third, the math scores of Russian children starting school are similar to those of English and Scottish children in the end of the first year of schooling, despite the fact that at this point in time they are considerably older. Nevertheless, their scores more or less coincide with an extrapolated line from the English and Scottish children starting school.

Fourth, progress from starting school to the end of the first year is strong for all countries, although less so for in Russia. This supports the claim that the first year of schooling is crucial for children's development.

Conclusion

The primary focus of this paper is methodological. Our research set out to see if Rasch measurement procedures could be applied to mathematics attainment measures so that they could reasonably be compared across very different situations. It has shown that it is possible to equate attainment in mathematics at different ages (4 to 7) in different countries (England, Scotland and Russia) at the start of school and at the end of the first year. A small Russian sample from only one region of Russia is a limitation of the study; so to confirm the conclusion, it is necessary to repeat the study with a big sample. The present research has shown the potential possibility of equating, which provides a proof of concept.

It follows that an international study of children starting school with a one-year follow-up is possible and we hypothesise that the more fundamental the measure and less culturally tied, the more it will be possible to equate measures across countries. We expect, for example, that short-term memory measures will be easier to equate than mathematics which will in turn be easier than reading. A highly language-specific construct, such as rhyming, will be close to impossible to equate across different languages.

In designing an international study of children around the start of their school career, an important question arises as to whether the study should be age or stage based. Figure 4 makes it clear that a purely aged-based study could produce data which are very difficult to interpret because of the major impact of schooling. Consider a survey conducted with children who had finished their first year at school in England and Scotland but had yet to start in Russia; the surveyors would conclude that the English and Scottish children were, on age-corrected scores, ahead of children from Russia. But, if the survey focused on a time before all children had started school, extrapolation of the data in Figure 4 suggests that the researchers would reach a very different conclusion. It therefore makes sense to collect data at the start and end of the first year of school in each country and estimates can then be made of attainment at different ages with and without a year at school, and the link between age and attainment can be established. Slopes can in themselves be seen as measures worthy of study (Burstein, Kim, & Delandshere, 1989).

The Russian data available for this paper, although widely based, were from a small sample from one region and, although the region was chosen to reflect the wider Russian demography, it cannot be said to be truly representative of the country as a whole because of the huge variations between the different regions. Therefore, no conclusions can be made about Russia's educational system as a whole. However, it is possible to set out a number of questions which could be tackled if, or when, a larger representative sample becomes available from Russia and other countries.

(a) To what extent does the on-entry and follow-up data predict PISA performance?

(b) To what extent do preschool policies relate to on-entry developmental levels, progress measures and the age-/developmental-level gradients?

(c) How do developmental levels vary across schools and to what extent is this related to social segregation?

(d) To what extent do relative progress (value-added) measures vary from school to school?

(e) How do (a) and (b) compare to other countries?

(f) If the data can be linked to performance at the end of elementary school across countries, do they suggest an optimum age for starting school?These are the key policy questions which have inspired the proposal to establish an international study of children starting school. This paper has demonstrated the technical feasibility of using the PIPS assessment to compile the data needed to start on this journey.

Note

1. The data and syntax are available from the authors by request.

Acknowledgements

Support from the Basic Research Program of the National Research University Higher School of

Economics is gratefully acknowledged.

Support from Durham University is gratefully acknowledged.

Disclosure statement

No potential conflict of interest was reported by the authors.

Notes on contributors

Alina Ivanova is a junior researcher, Centre of Education Quality Monitoring, National Research University Higher School of Economics, Russia. She graduated the masters programme 'Measurements in psychology and Education'. Her research interests include psychometric, primary education and large-scale educational assessments.

Elena Kardanova is an associate professor and director of Centre of Education Quality Monitoring, National Research University Higher School of Economics, Russia. She has been an expert in the assessment of the quality in education at CICED (Centre for International Cooperation in Education Development) in Moscow. Her main research interests include assessment, psychometric and test development.

Christine Merrell is the director of Research, Centre for Evaluation and Monitoring (CEM) and reader in School of Education, Durham University. Christine has extensive experience in the development of assessments for children aged between 3 and 11 years. Her other research interests include the academic attainment and progress of severely inattentive, hyperactive and impulsive young children and ways to help them succeed in the classroom.

Peter Tymms is the director of iPIPS and professor of Education , School of Education, Durham University. He is also an adviser to the German NEPS project, led the start of the Online Educational Research Journal and started the PIPS project. His main research interests include monitoring, assessment, performance indicators, ADHD, reading and research methodology.

David Hawker is a professor of the College of Teachers, an honorary professor at the University of Durham and a visiting professorial fellow at the Institute of Education in London. He runs his own international education consultancy. He has been an adviser to several international organisations, including the OECD, the World Bank and the Open Society Foundations.

ORCiD

Alina Ivanova http://orcid.org/0000-0003-3340-7651

Peter Tymms 0 http://orcid.org/0000-0002-7170-2566

References

Andrich, D. (1988). Rasch models for measurement. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-068. Beverly Hills and London: Sage.

Archer, E., Scherman, V., Coe, R., & Howie, S. J. (2010). Finding the best fit: The adaptation and translation of the Performance Indicators for Primary Schools (PIPS) for the South African context. Perspectives in Education, 28, 77-88.

Bäuerlein, K., Niklas, F., & Schneider, W. (2014) Fähigkeitsindikatoren Primarschule (FIPS) -Überprüfung des Lernerfolgs in der ersten Klasse [Performance indicators in primary school (FIPS) - Verification of first grade learning success]. In M. Hasselhorn, W. Schneider, & U. Trautwein (Eds.), Jahrbuch der pädagogisch-psychologischen Diagnostik. Tests und Trends, Bd. 12 Lernverlaufsdiagnostik (pp. 127-144). Göttingen: Hogrefe.

Black, P., & Wiliam, D. (1998). Inside the black box: Raising standards through classroom assessment. London: King's College London School of Education.

Bond, T. G., & Fox, C. M. (2001). Applying the Rasch model. Mahwah: Lawrence Erlbaum.

Burstein, L., Kim, K. S., & Delandshere, G. (1989). Multilevel investigations of systematically varying slopes: Issues, alternatives, and consequences. In R. D. Bock (Ed.), Multilevel analysis of educational data (pp. 194-211). New York, NY: Academic Press.

Dorans, N. J. (1989). Two new approaches to assessing differential item functioning: standardization and the mantel-haenszel method. Applied Measurement in Education, 2, 217-233.

Ercikan, K., & Lyons-Thomas, J. (2013). Adapting tests for use in other languages and cultures. In K. F. Geisinger (Ed.), APA handbook of testing and assessment in psychology (Vol. 3, pp. 545-569). Washington: American Psychological Association.

Ercikan, K., Gierl, M. J., McCreith, T., Puhan, G., & Koh, K. (2004). Comparability of bilingual versions of assessments: Sources of incomparability of English and French versions of Canada's national achievement tests. Applied Measurement in Education, 17, 301-321.

Federal State Statistics Service. (2010) Social and demographic portrait of Russia. Retrieved September 1, 2014, from http://www.gks.ru/free_doc/new_site/perepis2010/croc/Documents/portret-russia. pdf

Hambleton, R. K. (2005). Issues, designs, and technical guidelines for adapting tests into multiple languages and cultures. In R. K. Hambleton, P. F. Merenda, & C. D. Spielberger (Eds.), Adapting educational and psychological tests for cross-cultural assessment (pp. 3-38). Mahwah: Lawrence Erlbaum.

Kolchanova, S. S. (2012). Startovaya diagnostika pervoklassnikov kak osnova planirovaniya individual'nykh obrazovatel'nykh trayektoriy. Regional Education in XXI century: Problems and prospects, 1, 11-14.

Linacre, J. M. (1998). Detecting multidimensionality: Which residual data-type works best? Journal of Outcome Measurement, 2, 266-283.

Linacre, J. M. (2011). A user's guide to WINSTEPS. Program manual 3.71.0. Retrieved September 1, 2014, from http://www.winsteps.com/a/winsteps.pdf

Merrell, C., & Tymms, P. (2007). What children know and can do when they start school and how this varies between countries. Journal of Early Childhood Research, 5, 115-134.

Merry, J. J. (2013). Tracing the US deficit in PISA reading skills to early childhood: Evidence from the United States and Canada. Sociology of Education, 86, 234-252.

Narayanan, P., & Swaminathan, H. (1994). Performance of the mantel-haenszel and simultaneous item bias procedures for detecting differential item functioning. Applied Psychological Measurement, 18, 315-328.

Novoselova, Y. M. (2012). O pervoklassnikakh goroda Tyumeni. Regional Education in XXI century: Problems and prospects, 1, 14-17.

Pei, L. K., & Li, J. (2010). Effects of unequal ability variances on the performance of logistic regression, mantel-haenszel, SIBTEST IRT, and IRT likelihood ratio for DIF detection. Applied Psychological Measurement, 34, 453-456.

PISA, OECD. (2012). Results in focus. What 15-year-olds know and what they can do with what they know. Retrieved from http://www.oecd.org/pisa/keyfindings/pisa-2012-results-overview.pdf

Scottish Government. (2010). The building the curriculum 5: A framework for assessment. Edinburgh: The Scottish Government.

Sireci, S. G. (1997). Problems and issues in linking assessments across languages. Educational Measurement: Issues and Practice, 16, 12-19.

Smith, E. V (2002). Detecting and evaluating the impact of multidimensionality using item fit statistics and principal component analysis of residuals. Journal of Applied Measurement, 3, 205-231.

Tymms, P. (1999). Baseline assessment and monitoring in primary schools: Achievements, attitudes and value-added indicators. London: David Fulton.

Tymms, P., & Merrell, C. (2009). On-entry baseline assessment across cultures. In A. Anning, J. Cullen, & M. Fleer (Eds.), Early childhood education: Society & culture (2nd ed., pp. 117-129). London: Sage Publications.

Tymms, P., & Wylde, M. (2004). Basis pruefverfahren und Dauerbeobachtung in der Grundschule [Basic testing procedures and observation in primary school]. In G. Faust, M. Götz, H. Hacker, & H.-G. Roßbach (Eds.), Anschlussfaehige Bildungsprozesse im Elementar- und Primarbereich (pp. 190-203). Bad Heilbrunn: University of Bamberg, Verlag Julius Klinkhardt.

Tymms, P., Merrell, C., Henderson, B., Albone, S., & Jones, P. (2012) Learning difficulties in the primary school years: Predictability from on-entry baseline assessment. Online Educational Research Journal, June 2012. Retrieved October 6, 2014, from www.oerj.org

Tymms, P., Merrell, C., Hawker, D., & Nicholson, F. (2014). Performance indicators in primary schools: A comparison of performance on entry to school and the progress made in the first year in England and four other jurisdictions: Research report. London: Department for Education. Retrieved October 6, 2014, from https://www.gov.uk/government/publications/performance-indicators-in-primary-schools

Wildy, H., & Styles, I. (2008a). Measuring what students entering school know and can do: PIPS Australia 2006-2007. Australian Journal of Early Childhood, 33, 43-52.

Wildy, H., & Styles, I. (2008b). What Australian students entering primary school know and can do. Journal of Australian Research in Early Childhood Education, 15, 75-85.

Wolfe, E. W. (2004). Equating and item banking with the Rasch model. In E. V. Smith Jr. & R. M. Smith (Eds.), Introduction to Rasch measurement: Theory, models, and applications (pp. 366-390). Maple Grove: JAM Press.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.