Иногда исследователи применяют численные методы удаления выбросов. К сожалению, в общем случае определение выбросов субъективно, и решение должно приниматься индивидуально в каждом эксперименте с учетом его особенностей или сложившейся практики в данной области. Во многих случаях первый шаг анализа состоит в вычислении корреляционной матрицы всех переменных и проверке значимых (ожидаемых и неожиданных) корреляций. После того как это сделано, следует понять общую природу обнаруженной статистической значимости и понять, почему одни коэффициенты корреляции значимы, а другие нет. Однако следует иметь в виду, если используется несколько критериев, значимые результаты могут появляться часто, и это будет происходить чисто случайным образом. Например, коэффициент, значимый на уровне 0,05, будет встречаться чисто случайно один раз в каждом из 20 подвергнутых исследованию коэффициентов. Поэтому следует подходить с осторожностью ко всем непредсказанным или заранее не запланированным результатам и погштаться соотнести их с другими (надежными) результатами. В конечном счете самый убедительный способ проверки состоит в проведении повторного экспериментального исследования. Такое положение является общим для всех методов анализа, использующих множественные сравнения и статистическую значимость.
Следует иметь в виду, что коэффициенты корреляции не являются аддитивными: усредненный коэффициент корреляции, вычисленный по нескольким выборкам, не совпадает со средней корреляцией во всех этих выборках. Причина в том, что коэффициент корреляции не является линейной функцией величины зависимости между переменными. Коэффициенты корреляции не могут быть просто усреднены. Для получения среднего коэффициента корреляции следует преобразовать коэффициенты корреляции каждой выборки в такую меру зависимости, которая будет аддитивной. Например, до того как усреднить коэффициенты корреляции, их можно возвести в квадрат, получить коэффициенты детерминации, которые уже будут аддитивными. Если необходимо выявить различия средних в нескольких исследуемых группах, то подходящим является однофакторный дисперсионный анализ, дающий различие дисперсий. Дисперсионный анализ – это статистический метод изучения влияния отдельных переменных на изменчивость измеряемой (исследуемой) переменной.
Апостериорные сравнения средних после получения статистически значимого результата в дисперсионном анализе позволяют узнать, какие средние вызвали наблюдаемый эффект. Процедуры апостериорного сравнения специально рассчитаны так, чтобы учитывать более двух выборок. Группировку с дискриминант–ным анализом можно рассматривать как первый шаг к другому типу анализа – дискриминативному, который исследует различия между группами с помощью значений независимой переменной. Именно, в дискриминантном анализе находят такие линейные комбинации зависимых переменных, которые наилучшим образом определяют принадлежность наблюдения к определенному классу, причем число классов задается заранее.
Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Например, некий исследователь в области образования может захотеть исследовать, какие переменные относят выпускника средней школы к одной из трех категорий: 1) поступающий в колледж; 2) поступающий в профессиональную школу; 3) отказывающийся от дальнейшего образования или профессиональной подготовки. Для этой цели исследователь может собрать данные о различных переменных, связанных с учащимися школы. После выпуска большинство учащихся, естественно, должны попасть в одну из названных категорий. Затем можно использовать дискриминантный анализ для определения того, какие переменные дают наилучшее предсказание выбора учащимися дальнейшего пути. Например, предположим, что имеются две совокупности выпускников средней школы – те, кто выбрал поступление в колледж, и те, кто не собирается это делать. Если средние для двух совокупностей (тех, кто в настоящее время собирается продолжить образование, и тех, кто отказывается) различны, то это позволяет разделить учащихся на тех, кто собирается и кто не собирается поступать в колледж (и эта информация может быть использована членами школьного совета для подходящего руководства соответствующими учащимися).
Дисперсионный анализ, в частности, позволяет выявить, являются ли две или более совокупности значимо отличающимися одна от другой по среднему значению какой–либо конкретной переменной. Для изучения вопроса о том, как можно проверить статистическую значимость отличия в среднем между различными совокупностями, должно быть ясно, что если среднее значение определенной переменной значимо различно для двух совокупностей, то переменная их разделяет.