Несмотря на то что во многих областях измерения могут осуществляться с определенной степенью единообразия, число независимо изменяющихся факторов, тем не менее, может быть очень большим. Поэтому может оказаться крайне сложно установить постоянные отношения между ними. Однако в тех случаях, когда имеются очень большие совокупности таких данных, можно усмотреть некоторые общие тенденции. Например, повсеместно считается, что погода переменчива. Она зависит от большой группы факторов, которые не могут быть изолированы одновременно. Тем не менее, несмотря на то что погоду нельзя предсказывать с точностью, сравнение больших совокупностей метеорологических данных позволяет нам отыскать несколько полезных соотношений. Поэтому важно исследовать те способы, которые используются для сжатия и сравнения данных, полученных при перечислении и измерении. Методы, использующиеся для оценки групповых явлений посредством анализа данных, полученных в результате перечисления и измерения, составляют науку, именуемую статистикой.
Первый шаг к упрощению численных данных заключается в классификации информации под соответствующими заголовками. Природа классификации зависит от цели исследования. Очень часто таблицы частот позволяют нам получить общий обзор материала. Так, мы можем измерить рост школьников и обнаружить, что он колеблется между 2 футами 6 дюймами и 5 футами 6 дюймами. Для большинства целей не важно знать точный рост каждого ребенка с точностью более чем дюйм. Итак, мы можем установить число детей с ростом между 2 футами 6 дюймами и 2 футами 7 дюймами, ростом между 2 футами 7 дюймами и 2 футами 8 дюймами и т. д. Нельзя дать каких-либо общих указаний относительно того, какой величины должны быть выбираемые нами интервалы при построении таблиц частот.
Распределение частот между различными интервалами всегда должно выражаться суммарным образом. Для этого используются два типа статистических чисел. Один тип обозначается как среднее статистическое число. Вообще статистическое среднее обозначает то, что может быть названо «положением при распределении», т. е. численным значением, вокруг которого центрируются различные предметы. Второй тип чисел обозначается как дисперсные, или девиантные, числа. Они указывают степень изменения предметов относительно статистического среднего. Два набора предметов могут обладать общей центральной тенденцией, хотя величина отклонений (девиаций) в этих наборах может быть разной. Так, в двух наборах чисел 3, 4, 5, 6, 7 и 1, 3, 5, 7, 11 величина дисперсии (рассеивания) является разной. Другие типы статистических чисел могут также использоваться для описания распределения вокруг центра, однако мы не будем на них останавливаться.
§ 2. Статистическое среднее
Каким образом выбирается число, представляющее центральную тенденцию, присущую группе качеств? Какие условия нужно наложить на статистическое среднее и какой значимостью оно обладает? Существует несколько видов средних чисел, каждое из которых обладает своими преимуществами и имеет свои ограничения. Ни одно среднее число не является подходящим для всех возможных целей, т. к. каждое применяется для определенной цели. Однако, в общем, средние числа используются по следующим причинам: 1) они требуются для сводной репрезентации какой-либо группы, 2) они используются как способы сравнения различных групп, 3) они используются для характеристики целой группы на основе взятых из нее образцов. Следовательно, существуют некоторые очевидные качества, которыми должны обладать средние числа.
1. Средние числа должны определяться настолько недвусмысленно, чтобы их численное значение не зависело от прихотей индивида, высчитывающего их.
2. Средние числа должны быть функцией всех предметов группы; в противном случае они не будут представлять то или иное распределение в его цельности.
3. Средние числа должны обладать сравнительно простой математической природой, чтобы их можно было без труда высчитывать.
4. Средние числа должны допускать проведение над ними алгебраических манипуляций. Если нам известна, к примеру, средняя высота для каждой из двух последовательностей высот, то мы на этом основании можем высчитать среднюю высоту большей последовательности, полученной в результате объединения двух исходных последовательностей.
5. Средние числа должны быть относительно стабильными. Если мы выберем из группы несколько подходящих образцов, то средние числа для разных примеров будут разными. Мы редко нуждаемся в среднем числе, в котором такие различия будут как можно меньшими.