Такой балл имеет основные черты количественной меры, а поэтому позволяет проводить объективное сопоставление результатов, производить математико–статистический анализ, изучать динамику различных образовательных процессов в одних и тех же единицах измерения уровня подготовки учащихся и трудности заданий тестов. Кроме сертификационного балла участникам тестирования может быть присвоен рейтинг, указывающий на процент учащихся, получивших более низкий балл, чем у данного испытуемого. Это позволяет выпускникам оценивать свою конкурентоспособность при поступлении в вузы и участии в конкурсе. Сегодня можно с заранее заданной точностью оценить уровень учебных достижений каждого ученика, класса, школы, района, города, региона, страны с одинаковым подходом к требованиям оценивания результатов учебной деятельности.
Все это влечет за собой ряд существенных преобразований при определении результатов обучения, в частности перевода «сырыж» баллов в шкалу перцентильных рангов и др. [76]. Появляются сопоставимость и возможность сравнения результатов, полученных испытуемыми при выполнении тестов.
Понятно, что шкала тем лучше (т.е. тем достовернее), чем она надежнее. Один из способов сделать шкалу более достоверной – просто добавить в нее новые позиции. Однако на практике количество позиций на шкале ограничивается различными факторами (например, респонденты устали и просто не будут отвечать на большое число вопросов, полное пространство ограниченно и т.д.). Для построения надежной шкалы необходима последовательность нескольких действий.
1. Написать вопросы – исключительно творческий процесс, когда исследователь создает как можно больше вопросов, которые, как ему кажется, всесторонне описывают контролируемое содержание. Теоретически следует выбирать вопросы, связанные с заданной концепцией измерений. В области образовательного и психологического тестирования на этой стадии конструирования шкалы обычно обращают внимание на аналогичные анкеты и опросники для того, чтобы получить максимально полное представление о концепции.
2. Провести апробацию заданий на начальной выборке типичных респондентов и проанализировать результаты по каждому пункту для построения надежной шкалы и выявления уровня трудности заданий теста. В образовательных и психологических тестах обычно используют вопросы с ответами типа да/нет (или 1/0) – дихотомическая оценка. Надежная шкала состоит из вопросов (позиций), которые пропорционально разделяют ее на интервалы, их называют калиброванными заданиями, т.е. заданиями с известным уровнем трудности.
3. Из первоначального теста удалить все вопросы, дающие значительные отклонения. После удаления всех вопросов, которые не согласуются со шкалой, можно остаться без достаточного количества вопросов для того, чтобы создать полностью надежную шкалу (напомним, что чем меньше вопросов, тем менее надежна шкала).
4. Вернуться к первому действию. На практике исследователь часто несколько раз проходит через этапы создания и удаления вопросов до тех пор, пока не придет к их окончательному набору, образующему надежную шкалу.
При построении шкалы по тесту возникают определенные проблемы, связанные с ее неустойчивостью, в том случае, если тест используется в различное время учебного года либо выполняется испытуемыми различных возрастных групп. Однако и в этих случаях можно предпринять определенные шаги, способствующие повышению устойчивости тестовых шкал. При этом необходимо предположить, что приращение оцениваемого уровня подготовки по предмету происходит равномерно на протяжении всего времени изучения предмета [201].
В качестве таких шагов при конструировании шкалы зарубежные исследователи предлагают:
• получить репрезентативную выборку для вычисления устойчивых оценок уровня подготовки испытуемых с известными стандартными ошибками измерения;
• предъявить тест выборке подходящего возраста и периода обучения, объединив испытуемых выборки в одинаковые возрастные группы и разбив на трехмесячные подгруппы по периодам обучения;
• определить средний балл для каждой подгруппы, шкалировать результаты;
• интерполировать шкалированные результаты между соседними средними для тех «сырых» баллов, которые не наблюдались в выборке;
• экстраполировать результаты с учетом минимального и максимального наблюдаемых баллов для установления возможных границ шкалы по тесту;
• результаты интерполяции и экстраполяции собрать в таблицу, указывающую шкалированные эквиваленты «сырых» баллов в различных возрастных подгруппах или с учетом определенного периода обучения.
Информатизация процедур тестирования, обработки и проверки результатов привела к созданию статистических отчетов, позволяющих оперативно получать на единой шкале оценок показатели учебных достижений по различным выборкам.
3.6. Обоснование структуры контрольных измерительных материалов и подходов к шкалированию результатов