Читаем Разберись в Data Science полностью

– H0: Уровень рекомендаций в этом квартале ≥ Уровню рекомендаций в прошлом квартале.

В случае отвержения нулевой гипотезы будет принята альтернативная гипотеза, которая в данном случае такова: «Уровень рекомендаций в этом квартале ниже, чем в прошлом квартале». Используя статистическую нотацию, альтернативную гипотезу можно записать так:

– Ha: Уровень рекомендаций в этом квартале < Уровня рекомендаций в прошлом квартале.

Остановитесь на мгновение и подумайте о сделанном допущении. Вы не видели никаких данных и статистических показателей, но можете оспорить саму логику подхода вашего стажера. Выдвигая нулевую гипотезу, он изначально настроил себя на победу. Если результаты опросов за два квартала практически не различаются или основаны на небольшой выборке клиентов, то доказательств в пользу отвержения исходного допущения может оказаться недостаточно. Именно поэтому главный по данным должен спросить: «Какова нулевая гипотеза?» Плохо сформулированная нулевая гипотеза может создать обманчивое впечатление истинности некоего утверждения просто в силу отсутствия доказательств обратного.

Помните, что цель науки – бросить вызов существующему положению вещей. Статус-кво соответствует нулевой гипотезе, а альтернативная гипотеза отражает то, во что верите вы. И с помощью собранных данных вы должны доказать, что нулевая гипотеза является маловероятной.

Чтобы доказать эффективность своей работы по повышению уровня удовлетворенности клиентов, ваш стажер должен проверить свою гипотезу следующим образом:

– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.

– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.

(Мы вернемся к этому примеру чуть позже.)

<p><emphasis>Допущение эквивалентности</emphasis></p>

Предположим, вы заменяете ключевой ингредиент в пищевом продукте, чтобы сократить расходы. Ваша команда проводит опрос клиентов, предлагая им оценить вкус по 10-балльной шкале, чтобы выяснить, замечают ли они изменение. При использовании предыдущей рецептуры 18 из 20 человек говорили о своей готовности купить продукт. В ходе нового опроса о готовности купить продукт, приготовленный по новому рецепту, заявили 12 из 20 человек.

При использовании нулевой гипотезы: «Коэффициент покупок нового продукта = Коэффициент покупок прежнего продукта» и уровня значимости 0,05 p-значение[64], вычисленное с помощью статистического теста, равно 0,064. Поскольку p-значение превышает 0,05, нулевая гипотеза не отклоняется. Ваш начальник Джордж воспринимает это так: «Моя команда аналитиков показала, что между старым и новым более дешевым рецептом нет никакой статистически значимой разницы. Можно сократить расходы».

Джордж считает старый и новый рецепты эквивалентными, но у него просто может не быть достаточного количества данных, доказывающих обратное. Мораль здесь такова: не суметь опровергнуть статус-кво – это не то же самое, что подтвердить его[65].

<p><emphasis>Каков уровень значимости?</emphasis></p>

Как вы помните, уровень значимости – это пороговое значение, до достижения которого мы готовы мириться с тем, что данные не согласуются с нулевой гипотезой, продолжая при этом считать ее верной.

По традиции уровень значимости задается в 5 % или 0,05. В некоторых отраслях может использоваться 1 % или 0,01. Некоторые исследователи используют еще более низкое значение. Например, сотрудники Европейской организации по ядерным исследованиям (ЦЕРН) применяли невероятно низкий уровень значимости в процессе поиска крошечной физической частицы, известной как бозон Хиггса[66]. Чем меньше уровень значимости, тем меньше вероятность ложноположительного заключения.

Скорее всего, вы начнете с уровня значимости в 5 %, однако имейте в виду, что при таком значении вы можете ошибочно отклонять нулевую гипотезу (то есть делать ложноположительное заключение) в 1 случае из 20. Это приемлемо для вас?

Очень легко выбрать уровень значимости, при котором ваши результаты всегда будут статистически значимыми. Во многих инструментах по умолчанию задано значение в 5 %. Однако этот уровень может не соответствовать особенностям вашей отрасли. Кроме того, этот уровень может быть установлен вашим специалистом по работе с данными, который умолчал об этом изменении, сообщив вам лишь о том, что результат оказался статистически значимым. В худшем случае кто-то может провести тест и выбрать уровень значимости задним числом, – это все равно что бросить дротик, а затем передвинуть в нужное место мишень. Например, кто-то может провести статистический тест, получить p-значение 0,11, а затем задать уровень значимости 0,15, чтобы результат оказался статистически значимым.

Вот почему всегда важно спрашивать: «Каков уровень значимости?»

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных