Для обсуждения результатов массового тестирования при процедурах статистического анализа данных и для понимания «численной природы» педагогических измерений необходим краткий обзор элементарных понятий статистики. Что такое переменные, какие из них являются зависимыми и независимыми, какие существуют зависимости между переменными, что такое статистическая значимость и объем выборки? Каково значение нормального распределения в статистических рассуждениях? Как можно дифференцировать уровни подготовленности разных испытуемых? Эти и многие другие вопросы необходимы для работы с образовательной статистикой и для правильной интерпретации результатов тестового контроля, основанного на количественном определении переменных и установлении зависимостей между ними.
Переменные – это то, что можно измерять, контролировать или изменять в исследованиях. Их подразделяют на зависимые и независимые. Независимыми называются такие переменные, которые варьируются самим исследователем, тогда как зависимые переменные – это переменные, которые измеряются или регистрируются. Зависимость проявляется в ответной реакции исследуемого объекта на посланное на него воздействие. Экспериментатор, манипулируя независимыми переменными, приписывает объекты к экспериментальным группам, основываясь на некоторых их априорных свойствах. Например, пол респондентов является независимой переменной.
Анализ зависимых данных приводит к вычислению корреляций (зависимостей) между переменными и выявлению причинно–следственной связи между ними [36]. Например, если обнаружено, что всякий раз, когда изменяется переменная A, изменяется и переменная B, то можно сделать вывод о том, что переменная
Независимо от типа две или более переменные связаны (зависимы) между собой, если наблюдаемые значения этих переменных распределены согласованным образом. Другими словами, переменные зависимы, если их значения согласованы друг с другом в имеющихся наблюдениях. Например, рост связан с весом, обычно высокие индивиды тяжелее низких; IQ (коэффициент интеллекта) связан с количеством ошибок в тесте, а люди с высоким значением IQ делают меньше ошибок и т.д.
Конечная цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между переменными в терминах их количественных или качественных зависимостей, корреляций. Можно отметить два самых простых свойства зависимости между переменными: величину зависимости и надежность зависимости.
Величину зависимости понять и измерить легче, чем надежность. Надежность – менее наглядное понятие, однако оно чрезвычайно важно, так как связано с репрезентативностью выборки, на основе которой строятся выводы. Другими словами, надежность говорит нам о том, насколько вероятно, что зависимость, подобная найденной, будет вновь обнаружена на данных другой выборки, извлеченной из той же самой генеральной выборки (всей совокупности исследуемых объектов). Надежность найденных зависимостей между переменными конкретной выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой p-уровнем или статистическим уровнем значимости).
Статистическая значимость результата представляет собой меру уверенности в его истинности (в смысле репрезентативности выборки), p-уровень (термин введен K.A. Brownlee, 1960) – это показатель, находящийся в убывающей зависимости от надежности результата [233]. Более высокий p – уровень соответствует более низкой зависимости между переменными, найденной в выборке. Именно p – уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на генеральную выборку. Например, p –уровень, равный 0,05 (т.е. 1/20), показывает, что имеется 5% вероятности того, что найденная в выборке связь между переменными является случайной. Иными словами, если данная зависимость в генеральной выборке отсутствует, то примерно в одном из двадцати повторений эксперимента можно ожидать появления такой же или более сильной зависимости между переменными. Если между переменными генеральной выборки существует такая зависимость, то вероятность повторения результатов исследования, показывающих наличие этой зависимости, называется статистической мощностью плана. В большинстве исследований p – уровень, равный 0,05 (или 5%), рассматривается как приемлемая граница ошибки измерения.