Что такое сигма и статистическая значимость
Наверно каждому, кто хоть сколько-нибудь интересуется наукой, приходится время от времени слышать нечто подобное: «Модель противоречит данным на уровне два сигма», «Открытие бозона Хиггса будет официально признано, когда уровень значимости достигнет пяти сигма», «Заявки на доклады о три-сигма-эффектах не рассматриваются» и т.д.
Вездесущая сигма — всего лишь параметр, задающий ширину распределения Гаусса, традиционно обозначаемый как
«Нормированное на единицу» означает, что при таком коэффициенте перед экспонентой площадь под кривой равна единице. Распределение Гаусса крайне важно в статистике по простой причине: сумма многих случайных величин описывается распределением Гаусса (для простоты пользуемся вульгарным языком, пусть даже рискуя навлечь на себя гнев математиков). Например, распределение числа выпадений орла при 100 бросаниях монеты близко к распределению Гаусса со средним
Сходимость суммы многих распределений к распределению Гаусса декларируется так называемой центральной предельной теоремой. Именно поэтому распределение Гаусса столь важно в статистике. Настолько важно, что его называют нормальным распределением, а параметр ширины — стандартным отклонением. Если ошибки измерений описываются нормальным распределением, то с данными работать легко — есть простые способы оценок, насколько та или иная гипотеза описывает эти данные, каковы ошибки в параметрах гипотезы, которой мы пытаемся описать данные. Если ошибки не описываются нормальным распределением, то на это часто закрывают глаза, что обычно сходите рук, но не всегда.
Теперь важная таблица, поясняющая смысл употребления жаргона «сигма» в самых разных контекстах. Сверху — отклонение от центра распределения
Если какая то экспериментальная точка отклонилась от теоретической кривой, скажем, на 2
Если мы знаем, что в данном месте спектра, например, квазара может быть рентгеновская линия железа, и видим, что соответствующая точка «отпрыгнула» вверх на 4
Определение статистической значимости может быть и не связано с распределением Гаусса и числом стандартных отклонений. Допустим, мы пытаемся показать, что данные говорят о наличии какого-то эффекта. Как надо поступать в общем случае? Допустим, эффекта нет. Значит, нам надо принять некую нулевую гипотезу, как должны выглядеть данные при отсутствии эффекта. В примере со спектром это некая гладкая функция без линий. Статистическую значимость можно определить как вероятность того, что данные в результате случая отклоняются от нулевой гипотезы так, что имитируют эффект, каким мы его видим в данных. Вероятность зависит от нулевой гипотезы и гипотезы эффекта, поэтому правильное говорить о статистической значимости
В примере со спектром это просто вероятность того, что точка в том месте, где должна быть линия, случайно «отпрыгнула» вверх не меньше, чем на столько-то сигма. В общем случае любым посильным способом вычисляем вероятность случайной имитации эффекта. Неважно, как вычисляем, допустим, с помощью прямого численного моделирования методом Монте-Карло. Предположим, что эта вероятность получилась около 10-4 . Потом добавляем к гипотезе искомый эффект. Если при этом гипотеза (уже не нулевая) стала описывать данные хорошо, мы вправе сказать, что данные подтверждают эффект на уровне статистической значимости 10-4. Чем меньше вероятность, тем выше статистическая значимость. Как это часто делают, можно перевести вероятность в термины сигма, используя таблицу, приведенную выше.
Допустим, мы обнаружили в данных указание на некий эффект значимостью 4
Проблема в том, что правильная оценка статистической значимости — не такое простое дело. Если мы нашли нечто значимостью 10-4 в 100 независимых попытках, то настоящая значимость 10-2, а это уже очень слабый результат. В реальной работе с данными этих «независимых попыток» бывает огромное количество, и исследователь часто этого не осознает, а если осознает, то не умеет правильно оценить их число (это число в биологии и гуманитарных науках называется «поправка Бонферони», а в физике «штрафным фактором»). Четких рецептов, как оценивать эту поправку, на все случаи жизни не существует — это скорее кухня, а не наука. Владение этой кухней и есть составляющая профессионализма исследователя.