Стандартное отклонение, построенное указанным образом, демонстрирует экстремальные значения отклонений. При возведении отклонений в квадрат наибольшие из них обретают больший вес в общей сумме по сравнению с меньшими отклонениями. Относительно полезности стандартного отклонения нельзя сказать ничего до тех пор, пока не станут известными предположения, сделанные относительно группы значений, для которых оно высчитывается. Однако в целом стандартное отклонение является измерением дисперсии, которое в наименьшей степени подвержено влиянию флуктуаций в выборке по сравнению с другими измерениями. Если распределение в группе является примерно симметричным и если расстояние, равное стандартному отклонению, отграничено с каждой стороны среднего показателя, то около 2/3 всех предметов группы будут находиться внутри отграниченной области. В нашем примере с измерением роста эти отграничения выражаются записью: 66 ± 3. И действительно, около 2/3 величин находится между 63 и 69. Квартильное отклонение
Еще один способ измерения отклонения можно получить в результате расстановки предметов по мере их увеличения и отыскания тех трех значений (item), которые делят общую последовательность на четыре равные части. Эти значения называются «первый квартиль», «второй квартиль» (или медиана) и «третий квартиль». Если Q1 – это первый квартиль, a Q3 – третий, то квартильное отклонение определяется как (Q3 – Q1) / 2. Очевидно, что половина значений группы должна лежать между первым и третьим квартилями. По этой причине квартильное отклонение иногда также называется «вероятностной ошибкой». Если мы используем запись 65,5 ± 2 (где 65,5 является термином, находящимся посередине между первым и третьим квартилем, а 2 – квартальным отклонением), то внутри указанных границ (63,5 и 67,5) будет столько же значений, сколько и снаружи. Иными словами, предполагается, что когда мы произвольно выбираем какие-либо значения группы, то вероятность того, что мы выберем значение, находящееся внутри указанных границ, равна вероятности того, что мы выберем значение за их пределами. Однако выбор термина «вероятностная ошибка» здесь не вполне удачен и сбивает с толку, т. к. в литературе по данной теме этим термином принято обозначать и другие вещи.
§ 4. Измерение корреляции
Целью всех научных исследований является отыскание значимых отношений внутри изучаемой предметной области. Цель же статистических исследований заключается в том, чтобы облегчить процесс данного открытия и дать возможность выразить отношения между различными группами признаков. Мы собираем статистические данные относительно вопросов, связанных с жизнью, для того чтобы сравнивать такие вещи, как рождаемость, смертность, бедность и т. д., за два различных года. Мы собираем данные о числе несчастных случаев и количестве часов нахождения на рабочем месте на нескольких промышленных предприятиях для того, чтобы установить отношение (если таковое имеется) между этими двумя наборами явлений. Это делается для того, чтобы установить, связаны ли эти обстоятельства причинно-следственной связью или же являются частично или полностью независимыми друг от друга.
Мы уже рассмотрели средние показатели и меры дисперсии, которые обусловливают возможность более или менее точного сравнения групп. Для многих целей рассмотренные статистические числа – это все, что нам нужно. Так, мы можем сравнить доход некоторой общины на протяжении различных лет, используя один из средних показателей и измерения разброса. Иногда становятся полезными процентные отношения. Росла ли численность населения Германии быстрее, чем численность населения Франции между 1900-м и 1910 г.? Увеличение численности населения в процентах в большинстве случаев будет служить мерой такого роста. Существует ли отношение между орлиной формой носа и еврейским происхождением? Недвусмысленный ответ на этот вопрос был получен из данных, согласно которым в достаточно представительных выборках евреев лишь 14 % обладало «характерным еврейским носом».