Рис. 10.2. Статистическая мощность
Каждое распределение представляет плотность вероятности. По сути это две гистограммы с площадью под каждой кривой, равной единице. На графике нулевой гипотезы мы отмечаем две вертикальные линии таким образом, что площадь каждой на хвосте была равна /2. В случае односторонней гипотезы строится только одна линия с площадью. Эта линия делит распределение альтернативной гипотезы на две части – и (1 —), площади под ними как раз и равны соответственно ошибке второго рода и мощности критерия. Из графика наглядно видно, что чем дальше находятся пики (средние) этих распределений, тем выше мощность и ниже ошибка второго рода (неверное принятие нулевой гипотезы). И это очень логично – чем дальше средние распределений находятся друг от друга, тем становится явнее разница между гипотезами, а значит, нам легче отвергнуть
Именно таким образом работают калькуляторы мощности, которые вычисляют необходимый объем данных для тестов. В калькулятор вводится минимальная детектируемая разность в значениях параметров, уровень и ошибок. На выходе будет объем необходимых данных, которые нужно собрать. Закономерность здесь проста – чем меньшую разницу вы хотите детектировать, тем больше данных для этого нужно.
Альтернативой
Статистические критерии для p-значений
Как мы уже узнали,
Чтобы определить
• Левостронний тест:
• Правосторонний тест:
• Двусторонний тест:
Сейчас проще не изобретать велосипед, а пользоваться готовыми калькуляторами в статистических пакетах или программных библиотеках. Важно только выбрать правильный статистический критерий.
Выбор такого критерия зависит от задачи:
• Z-тест для проверки среднего в нормально распределенной величине.
Рис. 10.3. Левосторонний, правосторонний, двусторонний тесты
• T-тест Стьюдента – то же самое, что и z-тест, но для выборок малого объема (t < 100).
• Хи-квадрат Пирсона для категориальных переменных и всяческих биномиальных тестов. Очень удобен для расчета конверсий, например посетителей в покупателей, где нужен биномиальный тест – купил или нет.
• Тест Стьюдента для двух независимо распределенных выборок очень хорошо подходит для нашей задачи с двумя резервуарами или для сравнения средней суммы покупки.
У таких тестов есть одна проблема – они привязаны к распределению. Например, для тестов Стьюдента и
Хотя согласно статистическому словарю STATISTICA [78] – непараметрические методы наиболее приемлемы, когда объем выборок мал. Если данных много (например, > 100), то не имеет смысла использовать непараметрические статистики. Дело в том, что когда выборки становятся очень большими, то выборочные средние подчиняются нормальному закону, даже если исходная переменная не является нормальной или измерена с погрешностью. Непараметрические тесты имеют меньшую статистическую мощность (менее чувствительны), чем их параметрические конкуренты, и если важно обнаружить даже слабые отклонения, следует особенно внимательно выбирать статистику критерия.
В нашей задаче с резервуарами можно применить тест Стьюдента для двух независимых выборок. Второй альтернативой является универсальный инструмент – бутстрэп.
Бутстрэп