Читаем Разберись в Data Science полностью

Крайне небольшие эффекты могут быть обнаружены при исследовании большой выборки. Если вы видите только p-значения, а не доверительные интервалы, то можете подумать, что обнаружили большой эффект, хотя на самом деле выявили лишь незначительное различие, не имеющее практической ценности. Итак, глядя на доверительные интервалы, спросите себя, является ли то, что вы видите, практически значимым эффектом.

<p><emphasis>Предполагаете ли вы наличие причинно-следственной связи?</emphasis></p>

Вы уже почти забыли о стажере. Вам интересно, привела ли его работа к повышению уровня удовлетворенности клиентов в этом квартале по сравнению с предыдущим. Чтобы представить вам доказательства улучшения, стажер сформулировал нулевую и альтернативную гипотезы следующим образом:

– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.

– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.

В конце каждого квартала проводился опрос с использованием выборки, состоящей из 100 клиентов. В предыдущем квартале о своей готовности рекомендовать компанию сообщили 50/100 клиентов, а в этом квартале – 65/100. Являются ли результаты статистически значимыми при уровне 5 %?

С помощью статистического теста[70] стажер вычисляет p-значение. Оно равно 0,02, то есть меньше 0,05, что позволяет вам отклонить нулевую гипотезу и признать то, что разница в результатах двух кварталов является статистически значимой. Стажер очень радуется и чувствует, что ему удалось компенсировать свое плохое выступление на баскетбольной площадке. «Похоже, мне удалось повысить уровень удовлетворенности клиентов».

Но так ли это? Корреляция не доказывает наличие причинно-следственной связи. Уровень удовлетворенности клиентов мог повыситься благодаря целому ряду факторов, и если только не был проведен спланированный эксперимент и не были тщательно измерены различия между старым подходом и идеями стажера, то у вас нет оснований предполагать наличие причинно-следственной связи.

<p>Подведение итогов</p>

В этой главе вы узнали о статистическом выводе и о том, как можно оспаривать предоставляемые вам статистические данные. В частности, вы познакомились с вопросами, которые стоит задавать по поводу тех или иных статистических утверждений, а также узнали, почему это важно. Вот эти вопросы:

– Каков контекст этой статистики?

– Каков размер выборки?

– Что вы тестируете?

– Какова нулевая гипотеза?

– Каков уровень значимости?

– Сколько тестов вы проводите?

– Каковы доверительные интервалы?

– Имеет ли это практическое значение?

– Предполагаете ли вы наличие причинно-следственной связи?

Вооружившись этим списком, вы сможете эффективно оспаривать, понимать и оценивать статистические показатели, с которыми сталкиваетесь.

<p>Часть III</p><p>Освойте набор инструментов дата-сайентиста</p>

Скорее всего, взять в руки эту книгу вас побудили такие термины, как машинное обучение, искусственный интеллект и глубокое обучение. В этой части мы собираемся лишить их ореола таинственности.

Сфера данных, как бы мы ее ни назвали, постоянно изменяется. Однако фундаментальные концепции и инструменты существуют на протяжении десятилетий и лежат в основе самых актуальных тенденций, включая анализ текста и изображений. В части III вы найдете высокоуровневое описание этих концепций и методов.

Эта часть состоит из следующих глав:

Глава 8. Ищите скрытые группы.

Глава 9. Освойте модели регрессии.

Глава 10. Освойте модели классификации.

Глава 11. Освойте текстовую аналитику.

Глава 12. Концептуализируйте глубокое обучение.

Вы также узнаете о распространенных ошибках и ловушках, в которые попадают даже опытные аналитики.

<p>Глава 8</p><p>Ищите скрытые группы</p>

«Если вы проанализируете данные достаточно тщательно, то сможете отыскать послания Бога»

– Дилберт[71]

Представьте, что вам звонит друг и просит помочь категоризовать его музыкальную коллекцию, представляющую собой набор винтажных виниловых пластинок. Вы соглашаетесь.

По дороге вы задумываетесь о способе организации такой коллекции. Начать можно с очевидных категорий, например, с музыкальных жанров и поджанров. Также можно сгруппировать музыкальные композиции по периодам, в которые они были выпущены. Эту информацию легко найти на обложке альбома.

Однако, когда вы приезжаете к своему другу, он вручает вам высокую стопку черных виниловых пластинок без обложек.

Ваш друг говорит, что купил эти пластинки на гаражной распродаже и понятия не имеет о жанрах, исполнителях или периодах выхода записанных на них композиций. Вы вынуждены отказаться от своих предвзятых представлений о способах классификации записей, поскольку у вас нет обложек альбомов, на которые вы могли бы опереться при их группировке. Задача категоризации пластинок внезапно оказывается намного сложнее, чем вы предполагали.

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных