Обработка данных начинается с выбора правил оценивания ответов испытуемых на задания теста. В большинстве случаев используется дихотомическая оценка. Оценку выполнения
По такой упорядоченной матрице рассчитываются доли правильных р
Аналогично рассчитываются доли правильных и неправильных ответов на задания теста:
Сначала рассчитывается первичный балл каждого тестируемого:
являющийся только начальной оценкой уровня подготовки учащихся или студентов, и определяется число правильных ответов на каждое задание теста:
Это позволяет сделать первичную оценку трудности каждого задания. Следует иметь в виду, что показатель трудности задания
Оценка латентных параметров в большинстве случаев проводится в предположении нормальности распределения эмпирических данных как по множеству испытуемых, так и по множеству заданий.
Для лучшей наглядности информация о распределении первичных баллов тестируемых может быть представлена в виде гистограммы или кривой распределения. Максимальная частота выбора правильного результата (число тестируемых, набравших соответствующий балл) должна находиться в центре кривой, к краям частота снижается. Проверка нормальности распределения значений индивидуальньж баллов Xi (мера центральной тенденции) желательна при создании нормативно–ориентированных тестов. Одной из наиболее простых мер проверки центральной тенденции является среднее арифметическое; если его значение соответствует 50% общей суммы баллов для данного теста, то условие нормализации выполнено.
После этого определяются значения дифференцирующей способности j, как это было указано ранее. Найденные для всех заданий значения j позволяют перейти к оценке уровня знаний испытуемых, или уровня подготовленности, – латентного параметра . В качестве начального значения латентного параметра выбирается индивидуальный балл тестируемого Xi.
Аналогично проводится определение начального значения латентного параметра трудности задания j по значению Rj. Затем вычисляются стандартные ошибки измерений и , строятся характеристические и информационные кривые, рассчитывается показатель эффективности заданий и другие параметры. Расчет статистических показателей заданий теста, как правило, проводится по специальным автоматизированным программам и не требует специальной подготовки [197].
Схематически целевая и эмпирическая функции (для разного числа заданий) в процессе разработки и совершенствования теста за счет добавления заданий показаны на рис. 9. Правило определения длины теста указывает, что в процессе моделирования необходимо собирать статистику и подсчитывать дисперсию индивидуальных баллов тестируемых после каждого удлинения теста, наблюдая за изменением информационной функции теста.
Как только (при удовлетворительном заполнении области под целевой информационной функцией и при высокой содержательной валидности) дисперсия
прекращает изменяться, можно найти оптимальную длину теста (Xi – число правильных ответов
Рис. 9. Динамика информационной функции теста J – информационная функция; – уровень знаний
Апробация теста требует много времени, но обеспечивает высокий уровень качества теста. Верхняя часть кривой отражает стремление разработчиков создать тест, обеспечивающий равную точность оценок испытуемых в заданном интервале оценок на шкале логитов.