В контрольных измерительных материалах ЕГЭ для дифференциации подготовленности и отбора абитуриентов большой удельный вес в оценке имеют задания части «С», или повышенного уровня со свободным конструированием развернутого ответа; их, как правило, не включают в аттестационную часть теста, так как для аттестации достаточно части «А» с выбором ответа из числа предложенных (закрытые задания) и «В» со свободным ответом. Повышение достоверности решений по отбору абитуриентов в вузы по профилирующим дисциплинам связывается именно с результатами выполнения части «С».
Процесс совершенствования тестов как контрольных измерительных материалов происходит непрерывно в целях оптимизации их структуры и упрощения процедур шкалирования. Оптимизация КИМов – это процесс максимального упрощения его структуры с опорой на тематическую логику учебного материала для реализации запланированных целей и получения необходимых статистических свойств теста. Такая процедура называется тестологической оптимизацией, она предусматривает:
• выявление оптимального числа частей и пропорций различных форм заданий в КИМах, адекватных целям тестирования;
• выявление оптимального числа заданий, определение планируемого распределения заданий по трудности и сопоставление планируемых оценок с эмпирическими данными;
• анализ расположения точек локализации заданий вдоль оси трудности;
• определение оптимальной длины каждой части КИМа, компьютерное моделирование теста запланированной надежности и дифференцирующей способности.
Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.
К числу направлений совершенствования КИМ можно отнести:
• анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;
• проведение исследований по стабилизации критериального балла;
• разработку методики анализа устойчивости шкалы;
• проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;
• усиление связи шкалирования и оценивания с содержанием образования;
• выделение уровней учебных достижений для оценивания на пятибалльной шкале.
Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:
• адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;
• линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;
• прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.
Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? –шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито–мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.
Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого
Расхождение оценок экспертов считается значительным, если имеет место хотя бы одно из следующих условий:
• сумма модулей расхождений оценок экспертов по всем заданиям в свободной форме превосходит число
• расхождение оценок экспертов за j –e задание в свободной форме превосходит tj.
Методика построения компромиссных оценок основана на условиях:
• нет никакой априорной информации об экспертах;